Fugu-MT 論文翻訳(概要): Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing

論文の概要: Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing

arxiv url: http://arxiv.org/abs/2402.00658v2
Date: Mon, 15 Apr 2024 06:36:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 22:28:15.114576
Title: Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing
Title（参考訳）: 軌跡収集とプロセス・リワード合成による計画的推論の学習
Authors: Fangkai Jiao, Chengwei Qin, Zhengyuan Liu, Nancy F. Chen, Shafiq Joty,
Abstract要約: 収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
参考スコア（独自算出の注目度）: 61.98556945939045
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated significant potential in handling complex reasoning tasks through step-by-step rationale generation. However, recent studies have raised concerns regarding the hallucination and flaws in their reasoning process. Substantial efforts are being made to improve the reliability and faithfulness of the generated rationales. Some approaches model reasoning as planning, while others focus on annotating for process supervision. Nevertheless, the planning-based search process often results in high latency due to the frequent assessment of intermediate reasoning states and the extensive exploration space. Additionally, supervising the reasoning process with human annotation is costly and challenging to scale for LLM training. To address these issues, in this paper, we propose a framework to learn planning-based reasoning through Direct Preference Optimization (DPO) on collected trajectories, which are ranked according to synthesized process rewards. Our results on challenging logical reasoning benchmarks demonstrate the effectiveness of our learning framework, showing that our 7B model can surpass the strong counterparts like GPT-3.5-Turbo.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ステップ・バイ・ステップの合理性生成を通じて複雑な推論タスクを扱う大きな可能性を示している。しかし、近年の研究では、その推論過程における幻覚や欠陥が懸念されている。生成された合理性の信頼性と忠実性を改善するため、実質的な努力がなされている。あるアプローチでは、推論を計画としてモデル化し、別のアプローチでは、プロセスの監視に注釈を付けることに重点を置いている。それにもかかわらず、計画に基づく探索プロセスは、中間的推論状態と広範囲な探索空間の頻繁な評価により、しばしばレイテンシが高くなる。加えて、人間のアノテーションによる推論プロセスの監視は、LLMトレーニングのために費用がかかり、スケールが難しい。これらの課題に対処するため,本論文では,プロセスの報酬に応じてランク付けされた収集トラジェクトリ上で,DPO(Direct Preference Optimization)を通じて計画に基づく推論を学習するフレームワークを提案する。 GPT-3.5-Turboのような強力なモデルを超えることができることを示す。

関連論文リスト

Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。 Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文参考訳（メタデータ） (2026-03-02T09:18:19Z)
ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文参考訳（メタデータ） (2026-01-29T16:04:59Z)
STaR: Towards Cognitive Table Reasoning via Slow-Thinking Large Language Models [12.745473719032026]
本稿では、認知テーブル推論を実現するための新しいフレームワークSTaR(slow-thinking for table reasoning)を提案する。 STaRはステップバイステップ思考と不確実性認識推論を明示的にモデル化する。ベンチマーク実験により、STaRは優れた性能を示し、推論安定性が向上した。
論文参考訳（メタデータ） (2025-11-14T12:34:17Z)
Plan Then Action:High-Level Planning Guidance Reinforcement Learning for LLM Reasoning [22.177866778776814]
本稿では,高レベルプランニングときめ細かいCoT推論の両方を改善するために設計された2段階のフレームワークを提案する。第1段階では,高度なLCMを用いてCoTを蒸留して高レベル誘導を行い,それを教師付き微調整に用いる。第2段階では、最終出力と高レベルガイダンスの品質を協調的に最適化するガイダンス対応RL手法を導入する。
論文参考訳（メタデータ） (2025-10-02T09:28:13Z)
Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文参考訳（メタデータ） (2025-10-02T00:34:15Z)
Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文参考訳（メタデータ） (2025-09-29T19:27:23Z)
Test-time Prompt Intervention [16.9160718076699]
テストタイム・プロンプト・インターベンションのための新しいフレームワークであるPIを提案する。 PIは推論中の推論パスを動的にガイドし、規制するインターフェースを提供する。これにより、人間の問題解決の専門知識と認知科学の原則がLLMの推論プロセスにシームレスに統合される。
論文参考訳（メタデータ） (2025-08-04T15:17:13Z)
Enhancing Logical Reasoning in Language Models via Symbolically-Guided Monte Carlo Process Supervision [43.05159920832912]
大規模言語モデル(LLM)は多くの推論ベンチマークで高いパフォーマンスを示している。 LLMはコンテンツのバリエーションに影響を受けやすく、堅牢な計画や象徴的な抽象化の欠如を示している。そこで我々は,段階的に擬似ラベルで高品質な記号推論軌道を合成することで,そのような制限を克服することを提案する。
論文参考訳（メタデータ） (2025-05-26T18:06:39Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models [31.556646366268286]
大規模言語モデルは、複雑なタスクを解決するために、より長い推論チェーンに依存している。この試行錯誤アプローチは、しばしば高い計算オーバーヘッドとエラーの伝播をもたらす。推論時間推論を動的に最適化するフレームワークであるMeta-Reasonerを紹介する。
論文参考訳（メタデータ） (2025-02-27T09:40:13Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-30T02:21:59Z)
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文参考訳（メタデータ） (2025-01-16T17:37:58Z)
PSPO*: An Effective Process-supervised Policy Optimization for Reasoning Alignment [20.053439187190914]
我々は,報酬得点を決定するための推論ステップの数を考慮したPSPO-WRSを開発し,非線形報酬形成に最適化されたワイブル分布を利用する。 6つの数学的推論データセットの実験結果は、PSPO-WRSが現在の主流モデルより一貫して優れていることを示している。
論文参考訳（メタデータ） (2024-11-18T16:03:51Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。 2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文参考訳（メタデータ） (2024-09-19T03:39:09Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey [25.732397636695882]
大規模言語モデル(LLM)は、最近、推論を含むタスクで顕著なパフォーマンスを示している。これらの成功にもかかわらず、LLMの推論能力の深さは未だ不明である。
論文参考訳（メタデータ） (2024-04-02T11:46:31Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文参考訳（メタデータ） (2023-09-29T16:36:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。