論文の概要: Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options
- arxiv url: http://arxiv.org/abs/2409.00113v3
- Date: Mon, 02 Jun 2025 09:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.917907
- Title: Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options
- Title(参考訳): LLMs Robustness with Uncorrect Multiple-Choice Options
- Authors: Gracjan Góral, Emilia Wiśnios, Piotr Sankowski, Paweł Budzianowski,
- Abstract要約: 本研究は,LLMの命令追従能力と批判的推論とのバランスを評価するための新しいフレームワークを提案する。
トレーニング後のアライメントモデルでは,無効なオプションの選択がデフォルトとなることが多いが,ベースモデルでは,モデルサイズに合わせてスケールするリファリング機能が改善されている。
さらに、同様の指示追従バイアスを示す並列人間の研究を行い、これらのバイアスがアライメントに使用される人間のフィードバックデータセットを通してどのように伝播するかを示唆した。
- 参考スコア(独自算出の注目度): 2.1184929769291294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces a novel framework for evaluating LLMs' capacity to balance instruction-following with critical reasoning when presented with multiple-choice questions containing no valid answers. Through systematic evaluation across arithmetic, domain-specific knowledge, and high-stakes medical decision tasks, we demonstrate that post-training aligned models often default to selecting invalid options, while base models exhibit improved refusal capabilities that scale with model size. Our analysis reveals that alignment techniques, though intended to enhance helpfulness, can inadvertently impair models' reflective judgment--the ability to override default behaviors when faced with invalid options. We additionally conduct a parallel human study showing similar instruction-following biases, with implications for how these biases may propagate through human feedback datasets used in alignment. We provide extensive ablation studies examining the impact of model size, training techniques, and prompt engineering. Our findings highlight fundamental tensions between alignment optimization and preservation of critical reasoning capabilities, with important implications for developing more robust AI systems for real-world deployment.
- Abstract(参考訳): 本研究は, 有意な回答を含まない複数選択質問を提示した場合に, 批判的推論と命令追従のバランスをとるためのLSMの能力を評価するための新しい枠組みを提案する。
算術的,ドメイン固有知識,高度な医学的意思決定タスクの体系的評価を通じて,学習後整列モデルのデフォルトが無効オプションの選択であるのに対して,ベースモデルはモデルサイズに合わせてスケールする拒否機能が改善されていることが実証された。
分析の結果,アライメント技術は,有効性を高めることを目的としているものの,不適切な選択肢に直面した場合のデフォルト動作をオーバーライドする能力であるモデルの反射的判断を不注意に損なう可能性があることがわかった。
さらに、同様の指示追従バイアスを示す並列人間の研究を行い、これらのバイアスがアライメントに使用される人間のフィードバックデータセットを通してどのように伝播するかを示唆した。
我々は,モデルサイズ,トレーニング技術,迅速なエンジニアリングの影響について,広範囲にわたるアブレーション研究を行っている。
我々の発見は、アライメント最適化と重要な推論能力の維持の基本的な緊張関係を強調し、現実世界のデプロイメントのためのより堅牢なAIシステムの開発に重要な意味を持つ。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Learning to Correct for QA Reasoning with Black-box LLMs [37.13135300208977]
我々は,機械学習におけるオープンチャレンジとして,COBB (Correct for improve QA reasoning of Black-Box LLMs)を提案する。
トレーニングされた適応モデルを使用して、オリジナルのブラックボックスLSMのしばしば不完全な推論から正しい推論、または改善された推論へのセック2seqマッピングを実行する。
実験の結果,CoBBは様々なQAベンチマークにおいて推理精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T18:57:32Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Making Large Language Models Better Reasoners with Alignment [57.82176656663245]
推論(Reasoning)とは、証拠を使って結論に達する認知過程である。
近年の研究では、思考の連鎖(COT)推論プロセスによるデータ上の微調整LDMは、その推論能力を著しく向上させることができることが示されている。
テキストアライメントファインチューニング(AFT)パラダイムを3ステップで導入する。
論文 参考訳(メタデータ) (2023-09-05T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。