論文の概要: Learning Planning-based Reasoning by Trajectories Collection and Process
Reward Synthesizing
- arxiv url: http://arxiv.org/abs/2402.00658v1
- Date: Thu, 1 Feb 2024 15:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 15:03:50.168872
- Title: Learning Planning-based Reasoning by Trajectories Collection and Process
Reward Synthesizing
- Title(参考訳): トラジェクタ収集とプロセス報酬合成による学習計画に基づく推論
- Authors: Fangkai Jiao, Chengwei Qin, Zhengyuan Liu, Nancy F. Chen, Shafiq Joty
- Abstract要約: 収集された軌道上での直接選好最適化(DPO)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
- 参考スコア(独自算出の注目度): 66.50096740792928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated significant potential in
handling complex reasoning tasks through step-by-step rationale generation.
However, recent studies have raised concerns regarding the hallucination and
flaws in their reasoning process. Substantial efforts are being made to improve
the reliability and faithfulness of the generated rationales. Some approaches
model reasoning as planning, while others focus on annotating for process
supervision. Nevertheless, the planning-based search process often results in
high latency due to the frequent assessment of intermediate reasoning states
and the extensive exploration space. Additionally, supervising the reasoning
process with human annotation is costly and challenging to scale for LLM
training. To address these issues, in this paper, we propose a framework to
learn planning-based reasoning through direct preference optimization (DPO) on
collected trajectories, which are ranked according to synthesized process
rewards. Our results on challenging logical reasoning benchmarks demonstrate
the effectiveness of our learning framework, showing that our 7B model can
surpass the strong counterparts like GPT-3.5-Turbo.
- Abstract(参考訳): 大規模言語モデル(llm)は、ステップバイステップの合理化によって複雑な推論タスクを処理する上で大きな可能性を示している。
しかし、近年の研究は、その推論過程の幻覚と欠陥に関する懸念を提起している。
生成された合理性の信頼性と忠実性を改善するため、実質的な努力がなされている。
計画としての推論をモデル化するアプローチもあるが、プロセス監督のための注釈にフォーカスするアプローチもある。
それにもかかわらず、計画に基づく探索プロセスは、しばしば中間的推論状態と広範囲な探索空間の頻繁な評価のために高いレイテンシーをもたらす。
加えて、人間のアノテーションによる推論プロセスの監視は、LLMトレーニングのために費用がかかり、スケールが難しい。
これらの課題に対処するため,本論文では,プロセス報酬に応じてランク付けされた収集トラジェクトリの直接選好最適化(DPO)を通じて,計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークに挑戦した結果から,学習フレームワークの有効性が示され,gpt-3.5-turboのような強固なフレームワークを7bモデルで越えることができた。
関連論文リスト
- Comparing Inferential Strategies of Humans and Large Language Models in
Deductive Reasoning [30.399418995991585]
大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。
我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
論文 参考訳(メタデータ) (2024-02-20T12:58:14Z) - LLM-SAP: Large Language Model Situational Awareness Based Planning [0.0]
この研究は、大規模言語モデルにおける状況認識に基づく創発的計画能力の評価の先駆者である。
i) 標準化された評価のための新しいベンチマークとメトリクス、(ii) 進捗を加速するためのユニークなデータセット、(iii) 状況に敏感な計画タスクにおいて計画性能を著しく向上させるマルチエージェントスキームの実証に寄与する。
論文 参考訳(メタデータ) (2023-12-26T17:19:09Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。