Fugu-MT 論文翻訳(概要): Mind Your Tone: Does Tone Alter LLM Performance?

論文の概要: Mind Your Tone: Does Tone Alter LLM Performance?

arxiv url: http://arxiv.org/abs/2605.29027v1
Date: Wed, 27 May 2026 19:23:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:55.344553
Title: Mind Your Tone: Does Tone Alter LLM Performance?
Title（参考訳）: Mind Your Tone: Tone Alter LLMのパフォーマンスは向上するか?
Authors: Om Dobariya, Akhil Kumar,
Abstract要約: LLM(Large Language Models)の使用が増加しているが、そのパフォーマンスは、プロンプトスタイルやトーンに基づいて異なる。 5つの音調変量を持つ50塩基質問データセットと、57人の被験者と7つの音調変量を持つ570塩基質問MMLUサブセットの2つのデータセットを使用する。音質感度の主観レベル差を同定し,音色が内部推論モードにどのような影響を及ぼすかを説明するためのルーティング・フレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of Large Language Models (LLMs) is proliferating, yet their performance is observed to vary based on prompting styles and tones. In this study, we investigate both whether and how tonal variations in prompts lead to disparate LLM accuracy for objective multiple-choice questions. We use two datasets: a 50-base question dataset with five tone variants and a 570-base question MMLU subset spanning 57 subjects with seven tone variants. Experiments were conducted to evaluate the performance of four cost-efficient, popular LLMs: ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash, and Gemini 2.5 Flash Lite. Across models, tonal effects are systematic but highly model-dependent. Some models show small, yet statistically significant, shifts, while others exhibit large accuracy swings across tones. Further, we identify subject-level differences in tone sensitivity and present a routing framework to explain how tones may attune internal reasoning modes. Our findings caution users against assuming tone-robust reliability in LLM deployments.
Abstract（参考訳）: LLM(Large Language Models)の使用が増加しているが、そのパフォーマンスは、プロンプトスタイルやトーンに基づいて異なる。本研究では,刺激の音節変化が目的の複数選択質問に対するLLMの精度の相違につながるかどうかについて検討した。 5つの音調変量を持つ50塩基質問データセットと、57人の被験者と7つの音調変量を持つ570塩基質問MMLUサブセットの2つのデータセットを使用する。コスト効率の高いChatGPT-4o、ChatGPT-5-nano、Gemini 2.5 Flash、Gemini 2.5 Flash Liteの4つのLLMの性能を評価する実験を行った。モデル全体では、音調効果は体系的であるが、モデルに依存している。いくつかのモデルは小さいが統計的に有意なシフトを示し、他のモデルはトーンをまたいで大きな精度のスイングを示す。さらに、音質感度の主観レベル差を同定し、音色が内部の推論モードにどのような影響を及ぼすかを説明するためのルーティング・フレームワークを提案する。本研究は,LSM導入時の音の信頼性を前提として,利用者に注意を喚起した。

関連論文リスト

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge [0.0]
本研究は, GPT-4o, GPT-4o-mini, Gemini-2.5-Flash, Claude-Haiku-4.5, Claude-Sonnet-4.5の5モデルに対して, 評価安定性を系統的に評価した。 3つの疑問に対処する: 繰り返し実行されるモデルのスコアがどの程度安定しているか、モデルが異なる入力のスコアがどの程度異なるか、温度がスコアの一貫性にどのように影響するか。
論文参考訳（メタデータ） (2026-02-04T16:03:08Z)
Does Tone Change the Answer? Evaluating Prompt Politeness Effects on Modern LLMs: GPT, Gemini, LLaMA [0.6263481844384227]
本研究は,インタラクショントーンがモデル精度に与える影響を検討するためのシステム評価フレームワークを提案する。 GPT-4o mini (OpenAI)、Gemini 2.0 Flash (Google DeepMind)、Llama 4 Scout (Meta) の3つのメジャー言語モデルにこのフレームワークを適用した。以上の結果から,トーン感受性はモデル依存的かつドメイン依存的であることが示唆された。中性または超親和性は概してVery Rudeのプロンプトよりも高い精度が得られるが,統計的に有意な影響はヒューマニティタスクのサブセットにのみ現れる。
論文参考訳（メタデータ） (2025-12-14T19:25:20Z)
Towards Zero-Shot Differential Morphing Attack Detection with Multimodal Large Language Models [8.128063939332408]
本研究は, 差動モーフィング攻撃検出(D-MAD)における多モード大言語モデル (LLM) の導入を紹介する。我々の知る限りでは、実バイオメトリックデータを用いてマルチモーダルLLMをD-MADに採用するのはこれが初めてである。 CoT(Chain-of-Thought)ベースのプロンプトを設計し、回答の失敗率を低減し、意思決定の背後にある推論を強化する。
論文参考訳（メタデータ） (2025-05-21T10:05:19Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
Push the Limit of Multi-modal Emotion Recognition by Prompting LLMs with Receptive-Field-Aware Attention Weighting [15.908307085973247]
本稿では,受動的フィールド認識重み付けによる大規模言語モデルの実現により,あるバニラモデルの性能を向上させるフレームワークであるLanternを提案する。実験では、バニラモデルCORECTとSDTがGPT-4またはLlama-3.1-405Bでランタンに配備された。
論文参考訳（メタデータ） (2024-11-26T18:35:24Z)
Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文参考訳（メタデータ） (2024-03-29T17:59:34Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。