論文の概要: Does Tone Change the Answer? Evaluating Prompt Politeness Effects on Modern LLMs: GPT, Gemini, LLaMA
- arxiv url: http://arxiv.org/abs/2512.12812v1
- Date: Sun, 14 Dec 2025 19:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.453436
- Title: Does Tone Change the Answer? Evaluating Prompt Politeness Effects on Modern LLMs: GPT, Gemini, LLaMA
- Title(参考訳): 声調は答えを変えるか? 現代のLLM:GPT, Gemini, LLaMA
- Authors: Hanyu Cai, Binqi Shen, Lier Jin, Lan Hu, Xiaojing Fan,
- Abstract要約: 本研究は,インタラクショントーンがモデル精度に与える影響を検討するためのシステム評価フレームワークを提案する。
GPT-4o mini (OpenAI)、Gemini 2.0 Flash (Google DeepMind)、Llama 4 Scout (Meta) の3つのメジャー言語モデルにこのフレームワークを適用した。
以上の結果から,トーン感受性はモデル依存的かつドメイン依存的であることが示唆された。中性または超親和性は概してVery Rudeのプロンプトよりも高い精度が得られるが,統計的に有意な影響はヒューマニティタスクのサブセットにのみ現れる。
- 参考スコア(独自算出の注目度): 0.6263481844384227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt engineering has emerged as a critical factor influencing large language model (LLM) performance, yet the impact of pragmatic elements such as linguistic tone and politeness remains underexplored, particularly across different model families. In this work, we propose a systematic evaluation framework to examine how interaction tone affects model accuracy and apply it to three recently released and widely available LLMs: GPT-4o mini (OpenAI), Gemini 2.0 Flash (Google DeepMind), and Llama 4 Scout (Meta). Using the MMMLU benchmark, we evaluate model performance under Very Friendly, Neutral, and Very Rude prompt variants across six tasks spanning STEM and Humanities domains, and analyze pairwise accuracy differences with statistical significance testing. Our results show that tone sensitivity is both model-dependent and domain-specific. Neutral or Very Friendly prompts generally yield higher accuracy than Very Rude prompts, but statistically significant effects appear only in a subset of Humanities tasks, where rude tone reduces accuracy for GPT and Llama, while Gemini remains comparatively tone-insensitive. When performance is aggregated across tasks within each domain, tone effects diminish and largely lose statistical significance. Compared with earlier researches, these findings suggest that dataset scale and coverage materially influence the detection of tone effects. Overall, our study indicates that while interaction tone can matter in specific interpretive settings, modern LLMs are broadly robust to tonal variation in typical mixed-domain use, providing practical guidance for prompt design and model selection in real-world deployments.
- Abstract(参考訳): プロンプト・エンジニアリングは、大きな言語モデル(LLM)のパフォーマンスに影響を与える重要な要因として現れてきたが、言語的トーンや丁寧さといった実用的要素の影響は、特に異なるモデル・ファミリーにおいて未解明のままである。
本研究では,インタラクショントーンがモデル精度に与える影響を検証し,GPT-4o mini (OpenAI), Gemini 2.0 Flash (Google DeepMind), Llama 4 Scout (Meta) の3つのLLMに適用するシステム評価フレームワークを提案する。
MMMLUベンチマークを用いて、STEM領域と人文科学領域にまたがる6つのタスクに対して、Very Friendly, Neutral, Very Rude のモデル性能の評価を行い、統計的に有意な検証を行った。
その結果,音の感度はモデル依存とドメイン依存の両方であることがわかった。
ニュートラルまたは非常に友好的なプロンプトは、通常、超ルードのプロンプトよりも高い精度をもたらすが、統計的に重要な効果は、人文科学のタスクのサブセットにのみ現れる。
各領域内のタスク間でパフォーマンスが集約されると、トーン効果は減少し、統計的重要性がほとんど失われる。
過去の研究と比較すると、データセットのスケールとカバレッジがトーン効果の検出に重大な影響を与えることが示唆された。
本研究は, インタラクショントーンが特定の解釈的環境において重要である一方で, 現代のLLMは, 典型的な混合ドメイン利用において, 音調変化に対して広範囲に頑健であり, 実世界の展開において, 迅速な設計とモデル選択を行うための実践的ガイダンスを提供するものであることを示す。
関連論文リスト
- Emergent Bayesian Behaviour and Optimal Cue Combination in LLMs [6.415869990358189]
大規模言語モデル (LLM) は明示的な推論において優れているが、その暗黙的な計算戦略はいまだ探索されていない。
LLMが類似した動作を示し、明示的なトレーニングや指導なしに最適なマルチモーダル統合を行うかどうかを問う。
動作ベンチマーク - BayesBench: 4等級推定タスクをテキストと画像上で導入する。
マルチモーダルキュー合成における性能, 挙動, 効率を計測する。
論文 参考訳(メタデータ) (2025-12-02T12:51:30Z) - What Works for 'Lost-in-the-Middle' in LLMs? A Study on GM-Extract and Mitigations [1.2879523047871226]
GM-Extract は制御変数の検索において LLM 性能を評価するために慎重に設計された新しいベンチマークデータセットである。
2つのマルチドキュメントタスク(キー値抽出と質問応答)における7-8Bパラメータモデルの体系的評価を行う。
明瞭なU字曲線は一貫して観測されなかったが,本研究では,モデル間での明らかな性能パターンを明らかにした。
論文 参考訳(メタデータ) (2025-11-17T20:50:50Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning [19.313795358097483]
In-context Learning (ICL)は、大規模言語モデル(LLM)の重要な新興能力である。
本稿では,ICLの新たな位置バイアスを初めて明らかにした。
我々は,デモの位置,システムプロンプト,ユーザメッセージが変化すると,予測と精度が劇的に低下するのを観察する。
論文 参考訳(メタデータ) (2025-07-30T17:59:46Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - Evaluating the Sensitivity of LLMs to Prior Context [2.377922603550519]
大規模言語モデル(LLM)は、多ターン対話やその他の持続的な対話シナリオにますます多くデプロイされている。
我々は,文脈変化に対する感度を測定するために,先行文脈のボリュームと性質を変化させる新しいベンチマークのセットを導入する。
その結果,複数質問に対するLLM性能は,多ターンインタラクションにおいて劇的に低下することがわかった。
論文 参考訳(メタデータ) (2025-05-29T16:09:32Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Fact-checking with Generative AI: A Systematic Cross-Topic Examination of LLMs Capacity to Detect Veracity of Political Information [0.0]
本研究の目的は,大規模言語モデル (LLM) がファクトチェックにどのように用いられるかを評価することである。
我々は5つのLLMの性能を体系的に評価するAI監査手法を用いる。
結果は、特にセンシティブなトピックにおいて、モデルが偽文を識別するのが優れていることを示している。
論文 参考訳(メタデータ) (2025-03-11T13:06:40Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。