論文の概要: Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time
- arxiv url: http://arxiv.org/abs/2502.19230v1
- Date: Wed, 26 Feb 2025 15:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:57:48.027202
- Title: Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time
- Title(参考訳): 2つの頭は1より優れている: 推論時のデュアルモデル言語反射
- Authors: Jiazheng Li, Yuxiang Zhou, Junru Lu, Gladys Tyen, Lin Gui, Cesare Aloisi, Yulan He,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論シナリオに悩まされることが多い。
LLM生成反射の精度と深さを向上するコントラスト反射合成パイプラインを導入する。
本稿では,言語強化学習パラダイムにおける2モデル推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.3254565018168
- License:
- Abstract: Large Language Models (LLMs) often struggle with complex reasoning scenarios. While preference optimization methods enhance reasoning performance through training, they often lack transparency in why one reasoning outcome is preferred over another. Verbal reflection techniques improve explainability but are limited in LLMs' critique and refinement capacity. To address these challenges, we introduce a contrastive reflection synthesis pipeline that enhances the accuracy and depth of LLM-generated reflections. We further propose a dual-model reasoning framework within a verbal reinforcement learning paradigm, decoupling inference-time self-reflection into specialized, trained models for reasoning critique and refinement. Extensive experiments show that our framework outperforms traditional preference optimization methods across all evaluation metrics. Our findings also show that "two heads are better than one", demonstrating that a collaborative Reasoner-Critic model achieves superior reasoning performance and transparency, compared to single-model approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論シナリオに悩まされることが多い。
選好最適化手法は、トレーニングを通じて推論のパフォーマンスを向上させるが、ある推論結果が他の方法よりも好まれる理由について透明性を欠くことが多い。
言語反射法は説明可能性を改善するが、LLMの批判と改善能力に制限がある。
これらの課題に対処するために,LLM生成反射の精度と深さを向上するコントラスト反射合成パイプラインを導入する。
さらに、言語強化学習パラダイムにおける二重モデル推論フレームワークを提案し、推論時間自己回帰を専門的、訓練されたモデルに分解して、批判と洗練を推し進める。
大規模な実験により、我々のフレームワークはすべての評価指標で従来の選好最適化手法より優れていることが示された。
また,コラボレーティブなReasoner-Criticモデルでは,単一モデルアプローチと比較して,より優れた推論性能と透明性が得られることを示した。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Enhancing LLM Evaluations: The Garbling Trick [0.0]
大規模言語モデル(LLM)はますます強力になり、パフォーマンスに基づいたモデルの区別が困難になる。
本稿では,既存のLCM評価を,段階的に困難なタスクに変換する一般的な手法を提案する。
結果から,これらのモデルの比較推論能力,特に OpenAI の o1-preview と Google の gemini-pro-1.5 の区別が明らかになった。
論文 参考訳(メタデータ) (2024-11-03T11:39:50Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。