論文の概要: Self-Correcting Large Language Models: Generation vs. Multiple Choice
- arxiv url: http://arxiv.org/abs/2511.09381v1
- Date: Thu, 13 Nov 2025 01:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.543368
- Title: Self-Correcting Large Language Models: Generation vs. Multiple Choice
- Title(参考訳): 自己修正型大規模言語モデル:生成対複数選択
- Authors: Hossein A. Rahmani, Satyapriya Krishna, Xi Wang, Mohammadmehdi Naghiaei, Emine Yilmaz,
- Abstract要約: 大規模言語モデルは、最近、反復的洗練を通じて応答を自己修正する顕著な能力を示した。
我々は,様々な自然言語理解および推論タスクにおける性能傾向と誤り訂正挙動を比較した。
本研究は,タスク構造と出力空間の相互作用を考慮した自己補正機構の設計について述べる。
- 参考スコア(独自算出の注目度): 29.697851249014192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have recently demonstrated remarkable abilities to self-correct their responses through iterative refinement, often referred to as self-consistency or self-reflection. However, the dynamics of this self-correction mechanism may differ substantially depending on whether the model is tasked with open-ended text generation or with selecting the most appropriate response from multiple predefined options. In this paper, we conduct a systematic investigation of these two paradigms by comparing performance trends and error-correction behaviors across various natural language understanding and reasoning tasks, covering language models of different scales and families. Our experimental results reveal distinct patterns of improvement and failure modes: \textit{While open-ended generation often benefits from the flexibility of re-interpretation and compositional refinement, multiple-choice selection can leverage clearer solution boundaries but may be limited by the provided options}. This contrast also reflects the dual demands faced by emerging agentic LLM applications: effective agents must not only generate and refine open-ended plans or explanations, but also make reliable discrete choices when operating within constrained action spaces. Our findings, therefore, highlight that the design of self-correction mechanisms should take into account the interaction between task structure and output space, with implications for both knowledge-intensive reasoning and decision-oriented applications of LLMs.
- Abstract(参考訳): 大規模言語モデルは、しばしば自己整合性(self-consistency)または自己回帰(self-reflection)と呼ばれる反復的洗練を通じて、応答を自己修正する顕著な能力を示した。
しかし、この自己補正機構のダイナミクスは、モデルがオープンなテキスト生成をタスクしているか、あるいは複数の事前定義されたオプションから最も適切な応答を選択するかによって大きく異なる可能性がある。
本稿では,これらの2つのパラダイムを,様々な自然言語理解・推論タスクにおける性能傾向と誤り訂正挙動を比較し,異なるスケールと家族の言語モデルをカバーすることによって,体系的に検討する。
オープンエンド生成は、しばしば再解釈や構成の洗練の柔軟性から恩恵を受けるが、多重選択はより明確な解境界を活用できるが、提供される選択肢によって制限される可能性がある。
効果的なエージェントは、オープンな計画や説明を生成・洗練するだけでなく、制約されたアクション空間内で動作する際には、信頼できる個別の選択をしなければならない。
そこで本研究では, 自己補正機構の設計は, LLMの知識集約的推論と意思決定指向の応用の両方に影響を及ぼすとともに, タスク構造と出力空間の相互作用を考慮に入れるべきであることを示す。
関連論文リスト
- IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization [66.6349183886101]
IROTEは,安定かつ伝達可能な特性抽出のための新しいインコンテキスト手法である。
IROTEが生成する1つの自己反射は、様々な下流タスクにまたがる目標特性の安定な偽造を LLM が引き起こすことを示す。
論文 参考訳(メタデータ) (2025-08-12T08:04:28Z) - UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。
目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。
5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-09T17:02:40Z) - AdapThink: Adaptive Thinking Preferences for Reasoning Language Model [32.47427081297578]
強化学習(RL)に基づくポストトレーニングは、言語モデルの複雑な推論能力を大幅に向上させた。
しかし、この緩やかな思考のパラダイムは、効率を推理する上で重要な課題である。
より効率的な思考を促すために,適応的なポストトレーニングフレームワークAdapThinkを提案する。
論文 参考訳(メタデータ) (2025-06-23T02:06:04Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Unlocking Structured Thinking in Language Models with Cognitive Prompting [0.0]
大規模言語モデル(LLM)における問題解決を導く新しいアプローチとして認知的プロンプトを提案する。
本稿では,認知操作の決定論的シーケンス,自己適応型,ハイブリッド型という3つの変種を紹介する。
LLaMA, Gemma2, Qwenの各モデルの算術的推論ベンチマークGSM8Kにおける実験により、認知的プロンプトは標準的な質問応答に比べて性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-03T19:53:47Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。