論文の概要: Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
- arxiv url: http://arxiv.org/abs/2501.04682v1
- Date: Wed, 08 Jan 2025 18:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:53.637864
- Title: Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
- Title(参考訳): LLMにおけるシステム2推論 - Meta Chain-of-Thoughで考える方法を学ぶ
- Authors: Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn,
- Abstract要約: 我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。
本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
- 参考スコア(独自算出の注目度): 44.16048946261741
- License:
- Abstract: We propose a novel framework, Meta Chain-of-Thought (Meta-CoT), which extends traditional Chain-of-Thought (CoT) by explicitly modeling the underlying reasoning required to arrive at a particular CoT. We present empirical evidence from state-of-the-art models exhibiting behaviors consistent with in-context search, and explore methods for producing Meta-CoT via process supervision, synthetic data generation, and search algorithms. Finally, we outline a concrete pipeline for training a model to produce Meta-CoTs, incorporating instruction tuning with linearized search traces and reinforcement learning post-training. Finally, we discuss open research questions, including scaling laws, verifier roles, and the potential for discovering novel reasoning algorithms. This work provides a theoretical and practical roadmap to enable Meta-CoT in LLMs, paving the way for more powerful and human-like reasoning in artificial intelligence.
- Abstract(参考訳): 従来のCoT(Chain-of-Thought)を拡張したMeta-CoT(Meta-CoT)を提案する。
本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
最後に,メタCoTを生産するモデルを訓練するための具体的なパイプラインについて概説する。
最後に、スケーリング法則、検証役、新しい推論アルゴリズムの発見の可能性など、オープンな研究課題について論じる。
この研究は、LLMでMeta-CoTを有効にするための理論的かつ実践的なロードマップを提供し、人工知能におけるより強力で人間らしい推論の道を開く。
関連論文リスト
- From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - On the Diagram of Thought [12.304069891580658]
大規模言語モデル(LLM)における反復推論をモデル化するフレームワークであるDiagram of Thought(DoT)を紹介する。
DoTは提案、批評、洗練、検証を結合的なDAG構造に整理し、モデルが複雑な推論経路を探索できるようにする。
我々は、トポス理論を用いてDoTフレームワークを形式化し、論理的一貫性と推論過程の健全性を保証する数学的基盤を提供する。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models [48.559185522099625]
計画は人間の知性と現代大言語モデル(LLM)の両方の重要な要素である
本稿では,トランスフォーマーを用いたLLMにおける次の単語予測機構による計画能力の出現について検討する。
論文 参考訳(メタデータ) (2024-05-15T09:59:37Z) - Eliminating Reasoning via Inferring with Planning: A New Framework to
Guide LLMs' Non-linear Thinking [40.22335733384235]
CoT(Chain-of-Thought)のプロンプトとその変種は、高レベルの推論能力を持つ大規模言語モデルを装備することを模索している。
我々は,排除と推論の原理を組み合わせた新しいプロンプトである textbfInferential textbfExclusion textbfPrompting (IEP) を提案する。
論文 参考訳(メタデータ) (2023-10-18T21:42:16Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - A model-based approach to meta-Reinforcement Learning: Transformers and
tree search [1.1602089225841632]
本稿では,メタRLにおける探索とエクスプロイトを成功させるために,オンラインプランニングにおけるモデルベースアプローチの有効性を示す。
メタRL問題に存在する潜在空間から生じる複雑な力学を学習するためのTransformerアーキテクチャの効率性を示す。
論文 参考訳(メタデータ) (2022-08-24T13:30:26Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Towards Effective Context for Meta-Reinforcement Learning: an Approach
based on Contrastive Learning [33.19862944149082]
CCM(Contrastive Learning augmented Context-based Meta-RL)と呼ばれる新しいメタRLフレームワークを提案する。
まず、異なるタスクの背後にある対照的な性質に注目し、それを活用して、コンパクトで十分なコンテキストエンコーダをトレーニングします。
我々は,情報ゲインに基づく新たな目的を導出し,いくつかのステップで情報トラジェクトリを収集する。
論文 参考訳(メタデータ) (2020-09-29T09:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。