論文の概要: Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
- arxiv url: http://arxiv.org/abs/2501.04682v1
- Date: Wed, 08 Jan 2025 18:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 16:10:19.713996
- Title: Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
- Title(参考訳): LLMにおけるシステム2推論 - Meta Chain-of-Thoughで考える方法を学ぶ
- Authors: Violet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn,
- Abstract要約: 我々は,特定のCoTに着くために必要な基礎的推論を明示的にモデル化することにより,CoTを拡張したMeta-CoT(Meta-CoT)という新しいフレームワークを提案する。
本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
- 参考スコア(独自算出の注目度): 44.16048946261741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel framework, Meta Chain-of-Thought (Meta-CoT), which extends traditional Chain-of-Thought (CoT) by explicitly modeling the underlying reasoning required to arrive at a particular CoT. We present empirical evidence from state-of-the-art models exhibiting behaviors consistent with in-context search, and explore methods for producing Meta-CoT via process supervision, synthetic data generation, and search algorithms. Finally, we outline a concrete pipeline for training a model to produce Meta-CoTs, incorporating instruction tuning with linearized search traces and reinforcement learning post-training. Finally, we discuss open research questions, including scaling laws, verifier roles, and the potential for discovering novel reasoning algorithms. This work provides a theoretical and practical roadmap to enable Meta-CoT in LLMs, paving the way for more powerful and human-like reasoning in artificial intelligence.
- Abstract(参考訳): 従来のCoT(Chain-of-Thought)を拡張したMeta-CoT(Meta-CoT)を提案する。
本稿では,文脈内探索に整合した動作を示す最先端モデルによる実証的証拠を提示し,プロセスの監視,合成データ生成,検索アルゴリズムによるメタCoTの生成方法を探る。
最後に,メタCoTを生産するモデルを訓練するための具体的なパイプラインについて概説する。
最後に、スケーリング法則、検証役、新しい推論アルゴリズムの発見の可能性など、オープンな研究課題について論じる。
この研究は、LLMでMeta-CoTを有効にするための理論的かつ実践的なロードマップを提供し、人工知能におけるより強力で人間らしい推論の道を開く。
関連論文リスト
- Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。
広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - MyGO Multiplex CoT: A Method for Self-Reflection in Large Language Models via Double Chain of Thought Thinking [4.234183823376613]
我々は、LLMが推論しながら自己レビューの形式をシミュレートできる手法であるMultiformx CoT(Chain of Thought)を紹介する。
多重 CoT は反復的推論の力を活用し、モデルが最初の思考の連鎖を生成し、その後批判し、この推論を洗練させる。
論文 参考訳(メタデータ) (2025-01-20T12:54:57Z) - Rethinking Chain-of-Thought from the Perspective of Self-Training [10.722453877596998]
大型言語モデル(LLM)における潜在能力を活性化するための効果的なアプローチとして、チェーン・オブ・シント推論(CoT)が登場している。
本稿では,CoTと自己学習の関係について考察し,自己学習による洞察がCoTのパフォーマンスに与える影響を実証する。
論文 参考訳(メタデータ) (2024-12-14T13:12:50Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - On the Diagram of Thought [12.304069891580658]
大規模言語モデル(LLM)における反復推論をモデル化するフレームワークであるDiagram of Thought(DoT)を紹介する。
DoTは提案、批評、洗練、検証を結合的なDAG構造に整理し、モデルが複雑な推論経路を探索できるようにする。
我々は、トポス理論を用いてDoTフレームワークを形式化し、論理的一貫性と推論過程の健全性を保証する数学的基盤を提供する。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities [89.40778301238642]
モデルマージは、機械学習コミュニティにおける効率的なエンパワーメント技術である。
これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。
論文 参考訳(メタデータ) (2024-08-14T16:58:48Z) - ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models [48.559185522099625]
計画は人間の知性と現代大言語モデル(LLM)の両方の重要な要素である
本稿では,トランスフォーマーを用いたLLMにおける次の単語予測機構による計画能力の出現について検討する。
論文 参考訳(メタデータ) (2024-05-15T09:59:37Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Eliminating Reasoning via Inferring with Planning: A New Framework to
Guide LLMs' Non-linear Thinking [40.22335733384235]
CoT(Chain-of-Thought)のプロンプトとその変種は、高レベルの推論能力を持つ大規模言語モデルを装備することを模索している。
我々は,排除と推論の原理を組み合わせた新しいプロンプトである textbfInferential textbfExclusion textbfPrompting (IEP) を提案する。
論文 参考訳(メタデータ) (2023-10-18T21:42:16Z) - Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with
Large Language Models [68.05046964022844]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)のプロンプトを活用することで、顕著な推論機能を明らかにしている。
本稿では,入力質問の種類が不明な混合タスクシナリオにおいて,一般化可能なCoTプロンプト機構であるGeM-CoTを提案する。
この技術設計により、GeM-CoTは10の公開推論タスクと23のBBHタスクにおいて優れた一般化能力と優れたパフォーマンスを同時に享受する。
論文 参考訳(メタデータ) (2023-10-10T15:10:03Z) - Towards Effective Context for Meta-Reinforcement Learning: an Approach
based on Contrastive Learning [33.19862944149082]
CCM(Contrastive Learning augmented Context-based Meta-RL)と呼ばれる新しいメタRLフレームワークを提案する。
まず、異なるタスクの背後にある対照的な性質に注目し、それを活用して、コンパクトで十分なコンテキストエンコーダをトレーニングします。
我々は,情報ゲインに基づく新たな目的を導出し,いくつかのステップで情報トラジェクトリを収集する。
論文 参考訳(メタデータ) (2020-09-29T09:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。