論文の概要: Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time
- arxiv url: http://arxiv.org/abs/2502.19230v2
- Date: Sun, 28 Sep 2025 20:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.839158
- Title: Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time
- Title(参考訳): 2つの頭は1より優れている: 推論時のデュアルモデル言語反射
- Authors: Jiazheng Li, Yuxiang Zhou, Junru Lu, Gladys Tyen, Lin Gui, Cesare Aloisi, Yulan He,
- Abstract要約: 本稿では,効果的なリフレクションを訓練した専用の批判モデルを備えたデュアルモデル反射スコーリングフレームワークを提案する。
DARSは強力なパフォーマンスを達成し、すべての評価指標で既存のASSベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 22.397964526411812
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although preference optimization methods have improved reasoning performance in Large Language Models (LLMs), they often lack transparency regarding why one reasoning outcome is preferred over another. This limitation is especially critical in Automated Student Answer Scoring (ASAS), where explainability is essential to justify assessment outcomes. Verbal reinforcement learning offers the potential to generate explicit reflection, but it tends to produce superficial critiques that can harm assessment performance. Existing LLMs also struggle to reliably detect subtle reasoning errors in ASAS tasks. Moreover, manually identifying intermediate reasoning errors is expensive and difficult to scale. To address these challenges, we introduce a contrastive reflection synthesis pipeline that generates precise verbal feedback by identifying discrepancies in structure reasoning graph paths. Leveraging these synthetic reflection data, we propose DARS, a Dual-model Reflective Scoring framework featuring a dedicated Critic model trained for effective reflection. DARS achieves strong performance and consistently outperforms existing ASAS baselines across all evaluation metrics. Extensive experiments further provide novel insights into the value of reflection data, framework design, and the scaling behavior of DARS. We release the DARS code at https://github.com/lijiazheng99/DARS.
- Abstract(参考訳): 選好最適化手法は、Large Language Models (LLMs) における推論性能を改善するが、ある推論結果が他のモデルよりも好まれる理由に関する透明性を欠くことが多い。
この制限は、評価結果の正当化に説明責任が不可欠である自動学生回答スコアリング(ASAS)において特に重要である。
言語強化学習は、明示的な反射を生成する可能性を提供するが、評価性能を損なう表面的な批判を生み出す傾向がある。
既存のLLMはASASタスクの微妙な推論エラーを確実に検出するのにも苦労している。
さらに、中間推論エラーを手動で識別するのは高価で、スケールが難しい。
これらの課題に対処するために、構造推論グラフパスにおける相違点を識別することにより、正確な言語フィードバックを生成するコントラッシブリフレクション合成パイプラインを導入する。
これらの合成反射データを活用することで、効果的な反射を訓練した専用の批判モデルを備えたデュアルモデル反射装飾フレームワークであるDARSを提案する。
DARSは強力なパフォーマンスを達成し、すべての評価指標で既存のASSベースラインを一貫して上回ります。
さらに大規模な実験は、リフレクションデータの価値、フレームワーク設計、DARSのスケーリング行動に関する新たな洞察を提供する。
DARSのコードはhttps://github.com/lijiazheng99/DARSで公開しています。
関連論文リスト
- Efficient Reasoning Through Suppression of Self-Affirmation Reflections in Large Reasoning Models [29.615519143908998]
自己確認反射は、事前の内容を肯定する冗長な反射ステップであり、しばしば既に正しい推論ステップの後に起こる。
自己確認反射の抑制は複数のモデル間で精度を低下させることなく出力長を減少させることを示す。
また、そのような反射を明示的に抑制することで、現行の列車方式も改善する。
論文 参考訳(メタデータ) (2025-06-14T05:30:09Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning [25.02860760920562]
MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
論文 参考訳(メタデータ) (2025-06-02T14:21:44Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。