論文の概要: Feedback Indices to Evaluate LLM Responses to Rebuttals for Multiple Choice Type Questions
- arxiv url: http://arxiv.org/abs/2601.03285v1
- Date: Fri, 02 Jan 2026 21:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:22.966863
- Title: Feedback Indices to Evaluate LLM Responses to Rebuttals for Multiple Choice Type Questions
- Title(参考訳): 複数の選択型質問に対する回答に対するLLM応答評価のためのフィードバック指標
- Authors: Justin C. Dunlap, Anne-Simone Parent, Ralf Widenhorn,
- Abstract要約: 本稿では,チャット中の反論に挑戦する場合に,Large Language Model (LLM) 応答を特徴付けるフレームワークを提案する。
提案手法は,複数質問を提示した場合のLCMの挙動を定量的に評価する,架空の応答応答法を用いている。
指標は特に、サイコファンティックな行動として特徴づけられるものを検知し、測定するために設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a systematic framework of indices designed to characterize Large Language Model (LLM) responses when challenged with rebuttals during a chat. Assessing how LLMs respond to user dissent is crucial for understanding their reliability and behavior patterns, yet the complexity of human-LLM interactions makes systematic evaluation challenging. Our approach employs a fictitious-response rebuttal method that quantifies LLM behavior when presented with multiple-choice questions followed by deliberate challenges to their fictitious previous response. The indices are specifically designed to detect and measure what could be characterized as sycophantic behavior (excessive agreement with user challenges) or stubborn responses (rigid adherence to the fictitious response in the chat history) from LLMs. These metrics allow investigation of the relationships between sycophancy, stubbornness, and the model's actual mastery of the subject matter. We demonstrate the utility of these indices using two physics problems as test scenarios with various OpenAI models. The framework is intentionally generalizable to any multiple-choice format question, including on topics without universally accepted correct answers. Our results reveal measurable differences across OpenAI model generations, with trends indicating that newer models and those employing greater "Reasoning Effort" exhibit reduced sycophantic behavior. The FR pairing method combined with our proposed indices provides a practical, adaptable toolkit for systematically comparing LLM dialogue behaviors across different models and contexts.
- Abstract(参考訳): 本稿では,チャット中の反論に挑戦する場合に,Large Language Model (LLM) 応答を特徴付けるために設計された指標の体系的フレームワークを提案する。
LLMがユーザ不服従に対してどのように反応するかを評価することは、信頼性と行動パターンを理解する上で重要であるが、人間とLLMの相互作用の複雑さは、体系的な評価を困難にしている。
提案手法では,複数選択質問を提示した場合のLCMの挙動を定量的に評価し,先行回答に対する意図的な課題を提示する。
この指標は、LSMからサイコファンティックな行動(ユーザの課題との過剰な合意)や頑固な反応(チャット履歴における架空の応答への厳密な固執)を検知し、測定するように設計されている。
これらの指標は、梅毒症、頑固さ、およびモデルの主題の実際の熟達との関係を調査することができる。
各種OpenAIモデルを用いたテストシナリオとして2つの物理問題を用いて,これらの指標の有用性を実証する。
このフレームワークは、普遍的に受け入れられる正しい答えのないトピックを含む、任意の複数選択形式の質問に対して意図的に一般化可能である。
以上の結果から,OpenAIモデル世代間での計測可能な差異が明らかとなり,新しいモデルやより大きな"Reasoning Effort"を取り入れたモデルでは,シコファンの行動が減少する傾向が示唆された。
提案した指標と組み合わせたFRペアリング手法は,異なるモデルとコンテキスト間でのLLM対話挙動を体系的に比較するための,実用的で適応可能なツールキットを提供する。
関連論文リスト
- Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models [0.0]
本稿では, 忠実な幻覚を検出するための新しい枠組みであるセマンティック・ディバージェンス・メトリックス(SDM)を紹介する。
プロンプトと応答間のトピック共起のヒートマップは、ユーザとマシンの対話の定量的な2次元可視化と見なすことができる。
論文 参考訳(メタデータ) (2025-08-13T20:55:26Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Synthesizing Public Opinions with LLMs: Role Creation, Impacts, and the Future to eDemorcacy [5.92971970173011]
本稿では,世論データを合成する大規模言語モデルについて検討する。
応答率の低下や非応答バイアスといった従来の調査手法の課題に対処する。
本稿では,知識注入に基づく役割創出という新しい手法を紹介する。
論文 参考訳(メタデータ) (2025-03-31T21:21:52Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。