論文の概要: DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference
- arxiv url: http://arxiv.org/abs/2601.10896v1
- Date: Thu, 15 Jan 2026 22:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.302681
- Title: DialDefer: A Framework for Detecting and Mitigating LLM Dialogic Deference
- Title(参考訳): DialDefer: LLMダイアログ推論の検出と緩和のためのフレームワーク
- Authors: Parisa Rabbani, Priyam Sahoo, Ruben Mathew, Aishee Mondal, Harshita Ketharaman, Nimet Beyza Bozdag, Dilek Hakkani-Tür,
- Abstract要約: サードパーティの審査員(LLM)は、フレーミングによって同一の主張を判断する。
我々はこの対話的推論を,これらのフレーミングによる判断シフトを検出し緩和するためのフレームワークであるDialDeferを紹介した。
我々のDDS(Dialogic Deference Score)は、精度を不明瞭に集約する方向シフトをキャプチャする。
- 参考スコア(独自算出の注目度): 6.820756409849046
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLMs are increasingly used as third-party judges, yet their reliability when evaluating speakers in dialogue remains poorly understood. We show that LLMs judge identical claims differently depending on framing: the same content elicits different verdicts when presented as a statement to verify ("Is this statement correct?") versus attributed to a speaker ("Is this speaker correct?"). We call this dialogic deference and introduce DialDefer, a framework for detecting and mitigating these framing-induced judgment shifts. Our Dialogic Deference Score (DDS) captures directional shifts that aggregate accuracy obscures. Across nine domains, 3k+ instances, and four models, conversational framing induces large shifts (|DDS| up to 87pp, p < .0001) while accuracy remains stable (<2pp), with effects amplifying 2-4x on naturalistic Reddit conversations. Models can shift toward agreement (deference) or disagreement (skepticism) depending on domain -- the same model ranges from DDS = -53 on graduate-level science to +58 on social judgment. Ablations reveal that human-vs-LLM attribution drives the largest shifts (17.7pp swing), suggesting models treat disagreement with humans as more costly than with AI. Mitigation attempts reduce deference but can over-correct into skepticism, framing this as a calibration problem beyond accuracy optimization.
- Abstract(参考訳): LLMはますますサードパーティの審査員として使われているが、対話で話者を評価する際の信頼性は未だによく分かっていない。
同一のコンテンツは、話者に帰属する話者(この話者は正しいか?)に対して、ステートメントとして提示された時に異なる評定を導き出す(この声明は正しいか?)。
我々はこの対話的推論を,これらのフレーミングによる判断シフトを検出し緩和するためのフレームワークであるDialDeferを紹介した。
我々のDDS(Dialogic Deference Score)は、精度を不明瞭に集約する方向シフトをキャプチャする。
9つのドメイン、3k+インスタンス、4つのモデルで、会話フレーミングは大きなシフト(最大87pp、p < 0001)を誘導するが、精度は安定している(2pp)。
モデルは、ドメインによって合意(判断)や不一致(懐疑)へと移行することができる。同じモデルは、大学院レベルのDDS = -53から、社会的判断における+58まで様々である。
アブレーションにより、人間-vs-LLMの属性が最大のシフト(17.7ppのスイング)を駆動していることが判明し、モデルがAIよりもコストのかかる人間との不一致を扱うことを示唆している。
緩和は推論を減らそうとするが、懐疑論に過度に修正し、これを精度最適化以上の校正問題とみなす。
関連論文リスト
- SpeakerSleuth: Evaluating Large Audio-Language Models as Judges for Multi-turn Speaker Consistency [12.420484491347073]
LALMがマルチターン対話における話者の一貫性を確実に判断できるかどうかを評価するベンチマークである SpeakerSleuth を提案する。
合成音声と実音声を対象とする4つの多種多様なデータセットを対象とした1,818の人間検証評価インスタンスを構築した。
モデルは音響的不整合を確実に検出するのに苦労している。
論文 参考訳(メタデータ) (2026-01-07T15:45:41Z) - From Fact to Judgment: Investigating the Impact of Task Framing on LLM Conviction in Dialogue Systems [8.8953040142657]
本研究では,タスクが直接の事実クエリから会話的判断タスクにリフレームされると,LCMの信念がどう変化するかを検討する。
両条件に単純な反論(前の答えは正しくない)の形で圧力を適用する。
以上の結果から, GPT-4o-miniのようなモデルでは, 社会的フレーミング作業下でのシコファン性傾向が明らかにされているが, Llama-8B-Instructのようなモデルでは過度に批判的になる。
論文 参考訳(メタデータ) (2025-11-14T00:55:28Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling [9.305763502526833]
本稿では,ユーザ過度に対処するタスク指向対話エージェントのための説明責任モデルを提案する。
実験結果から,提案手法はAIエージェントエラーの信頼性の高い推定を可能にするだけでなく,デコーダがより正確な動作を生成することを示唆している。
論文 参考訳(メタデータ) (2025-01-17T17:40:12Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Cognitive Dissonance: Why Do Language Model Outputs Disagree with
Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。
それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。
過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。
この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文 参考訳(メタデータ) (2023-11-27T18:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。