論文の概要: Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)
- arxiv url: http://arxiv.org/abs/2510.04950v1
- Date: Mon, 06 Oct 2025 15:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.961555
- Title: Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)
- Title(参考訳): プロンプトのポリテネスがLLMの精度に与える影響を調査中(短い論文)
- Authors: Om Dobariya, Akhil Kumar,
- Abstract要約: 本研究は,複数質問に対するモデル精度に与える影響について検討した。
数学、科学、歴史にまたがる50の基本的な質問のデータセットを作成し、それぞれが5つの音調の変種(Very Polite, Polite, Neutral, Rude, Very Rude)に書き換えました。
予想とは対照的に、イノライトのプロンプトは多孔質のプロンプトよりも一貫して優れており、精度は80.8%、Very Rudeプロンプトは84.8%である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The wording of natural language prompts has been shown to influence the performance of large language models (LLMs), yet the role of politeness and tone remains underexplored. In this study, we investigate how varying levels of prompt politeness affect model accuracy on multiple-choice questions. We created a dataset of 50 base questions spanning mathematics, science, and history, each rewritten into five tone variants: Very Polite, Polite, Neutral, Rude, and Very Rude, yielding 250 unique prompts. Using ChatGPT 4o, we evaluated responses across these conditions and applied paired sample t-tests to assess statistical significance. Contrary to expectations, impolite prompts consistently outperformed polite ones, with accuracy ranging from 80.8% for Very Polite prompts to 84.8% for Very Rude prompts. These findings differ from earlier studies that associated rudeness with poorer outcomes, suggesting that newer LLMs may respond differently to tonal variation. Our results highlight the importance of studying pragmatic aspects of prompting and raise broader questions about the social dimensions of human-AI interaction.
- Abstract(参考訳): 自然言語のプロンプトの単語化は、大きな言語モデル(LLM)の性能に影響を与えることが示されているが、丁寧さとトーンの役割は未解明のままである。
本研究は,複数質問に対するモデル精度に与える影響について検討した。
数学、科学、歴史にまたがる50の質問のデータセットを作成し、それぞれが5つの音調変奏曲に書き直された: Very Polite, Polite, Neutral, Rude, Very Rude。
また,ChatGPT 4oを用いて,これらの条件にまたがる応答を評価し,統計的意義を評価するためにペア標本t検定を適用した。
予想とは対照的に、イノライトのプロンプトは多孔質のプロンプトよりも一貫して優れており、精度は80.8%、Very Rudeプロンプトは84.8%である。
これらの知見は, より低調な結果に関連付けられた失礼さが, より新しいLDMの音節変化に異なる反応を示す可能性が示唆された。
本研究は,人間とAIの相互作用の社会的側面について,より広範な疑問を提起・提起する実践的な側面を研究することの重要性を強調した。
関連論文リスト
- CAPE: Context-Aware Personality Evaluation Framework for Large Language Models [8.618075786777219]
大規模言語モデル(LLM)のためのコンテキスト認識型パーソナリティ評価フレームワークを提案する。
実験の結果,会話履歴は文脈内学習による応答の整合性を高めるだけでなく,人格の変化も引き起こすことがわかった。
我々のフレームワークは、人間による判断をより良く整合させるために、ロールプレイングエージェント(RPAs)に適用できる。
論文 参考訳(メタデータ) (2025-08-28T03:17:47Z) - What Makes a Good Natural Language Prompt? [72.3282960118995]
我々は,2022年から2025年にかけて,NLPおよびAIカンファレンスを主導する150以上のプロンプト関連論文を対象としたメタ分析調査を実施している。
本研究では,6次元に分類した21の特性を含む,迅速な品質評価のための特性・人間中心のフレームワークを提案する。
次に、複数プロパティのプロンプト強化を実証的に検討し、単一プロパティのプロンプトが最大の影響を与える場合が多いことを観察する。
論文 参考訳(メタデータ) (2025-06-07T23:19:27Z) - Revealing Fine-Grained Values and Opinions in Large Language Models [40.53709870111704]
政治コンパステスト(PCT)の62の命題に対する156kの応答のデータセットを,420の即時変動を用いて解析した。
微粒化解析のために, 応答のトポロジを同定することを提案する: 意味論的に類似したフレーズは, 異なるプロンプト間で繰り返し, 一貫性がある。
その結果,PCTの結果に有意な影響を与え,バイアスを反映し,クローズドフォームとオープンドメインの応答を誘発する際のテスト結果の相違が示唆された。
論文 参考訳(メタデータ) (2024-06-27T15:01:53Z) - Are Large Language Models Chameleons? An Attempt to Simulate Social Surveys [1.5727456947901746]
大規模言語モデル(LLM)が主観的な質問に答えるよう求められたシミュレーションを数百万回実施した。
欧州社会調査(ESS)データと異なるLDM応答の比較は、プロンプトがバイアスや変動性に与える影響が基本であることを示唆している。
論文 参考訳(メタデータ) (2024-05-29T17:54:22Z) - Large Language Models Can Infer Personality from Free-Form User Interactions [0.0]
GPT-4は、パーソナリティを適度な精度で推測することができ、以前のアプローチよりも優れていた。
その結果,人格評価への直接的注力は,ユーザエクスペリエンスの低下を招いていないことがわかった。
予備的な分析は、人格推定の正確さは、社会デミノグラフィーのサブグループによってわずかに異なることを示唆している。
論文 参考訳(メタデータ) (2024-05-19T20:33:36Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Toward Human Readable Prompt Tuning: Kubrick's The Shining is a good
movie, and a good prompt too? [84.91689960190054]
大規模言語モデルは、自然言語のプロンプトが与えられた場合、ゼロショットで新しいタスクを実行することができる。
特にプロンプトが自然言語である場合、どの要因がプロンプトを効果的にするかは明らかにされていない。
論文 参考訳(メタデータ) (2022-12-20T18:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。