論文の概要: Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space
- arxiv url: http://arxiv.org/abs/2604.04944v1
- Date: Sun, 15 Mar 2026 13:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.607442
- Title: Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space
- Title(参考訳): 含意--決定空間の浄化による選好不安定の緩和
- Authors: Mohammad Reza Ghasemi Madani, Soyeon Caren Han, Shuo Yang, Jey Han Lau,
- Abstract要約: 大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が広く使われている。
我々は、この認知負荷を軽減するために設計されたプログレッシブな自己フィルタリング戦略であるInclusion-of-Thoughts(IoT)を提案する。
IoTは、算術、常識推論、教育ベンチマークなど、さまざまな分野において、チェーンオブ思想のパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 36.15551266697268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple-choice questions (MCQs) are widely used to evaluate large language models (LLMs). However, LLMs remain vulnerable to the presence of plausible distractors. This often diverts attention toward irrelevant choices, resulting in unstable oscillation between correct and incorrect answers. In this paper, we propose Inclusion-of-Thoughts (IoT), a progressive self-filtering strategy that is designed to mitigate this cognitive load (i.e., instability of model preferences under the presence of distractors) and enable the model to focus more effectively on plausible answers. Our method operates to reconstruct the MCQ using only plausible option choices, providing a controlled setting for examining comparative judgements and therefore the stability of the model's internal reasoning under perturbation. By explicitly documenting this filtering process, IoT also enhances the transparency and interpretability of the model's decision-making. Extensive empirical evaluation demonstrates that IoT substantially boosts chain-of-thought performance across a range of arithmetic, commonsense reasoning, and educational benchmarks with minimal computational overhead.
- Abstract(参考訳): 大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が広く使われている。
しかし、LSMは可塑性散乱体の存在に弱いままである。
これはしばしば無関係な選択に注意を向け、正解と誤解の間に不安定な振動をもたらす。
本稿では,この認知負荷を軽減し,モデルがより効果的に有効な回答にフォーカスできるようにするための,進歩的自己フィルタリング戦略であるInclusion-of-Thoughts(IoT)を提案する。
提案手法は, 最適選択のみを用いてMCQを再構成し, 比較判断の制御条件と, 摂動下でのモデルの内部推論の安定性を提供する。
このフィルタリングプロセスを明示的に文書化することにより、IoTはモデルの意思決定の透明性と解釈性も向上する。
大規模な経験的評価は、IoTが計算オーバーヘッドを最小限に抑えた算術、常識推論、教育ベンチマークの範囲で、チェーンオブ思想のパフォーマンスを大幅に向上することを示している。
関連論文リスト
- Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - Improving Few-Shot Change Detection Visual Question Answering via Decision-Ambiguity-guided Reinforcement Fine-Tuning [32.249022698727856]
変化検出視覚質問応答 (CDVQA) は、両時間的リモートセンシング画像における意味的変化を推論することで、テキストクエリに応答する必要がある。
直感的なアプローチは、教師付き微調整(SFT)によって一般的な視覚言語モデルでCDVQAのパフォーマンスを向上させることである。
我々は、まず、SFT訓練された参照ポリシーを用いてDASをマイニングし、次いで、マイニングされたサブセットにグループ相対的なポリシー最適化を適用するDARFT(DarFT-Ambiguity-guided Reinforcement Fine-Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-31T03:28:17Z) - From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。
しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。
現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。
我々はメタ認知推論フレームワーク(MERA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T13:59:17Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options [2.1184929769291294]
本研究は,LLMの命令追従能力と批判的推論とのバランスを評価するための新しいフレームワークを提案する。
トレーニング後のアライメントモデルでは,無効なオプションの選択がデフォルトとなることが多いが,ベースモデルでは,モデルサイズに合わせてスケールするリファリング機能が改善されている。
さらに、同様の指示追従バイアスを示す並列人間の研究を行い、これらのバイアスがアライメントに使用される人間のフィードバックデータセットを通してどのように伝播するかを示唆した。
論文 参考訳(メタデータ) (2024-08-27T19:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。