論文の概要: Learning Composable Chains-of-Thought
- arxiv url: http://arxiv.org/abs/2505.22635v1
- Date: Wed, 28 May 2025 17:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.77632
- Title: Learning Composable Chains-of-Thought
- Title(参考訳): 組み立て可能なチェーンを学習する
- Authors: Fangcong Yin, Zeyu Leo Liu, Liu Leqi, Xi Ye, Greg Durrett,
- Abstract要約: 我々は大規模言語モデル (LLM) を訓練し, 帰属的推論問題のチェーン・オブ・シント (CoT) トレースを推論する。
我々はCoTデータをラベル付けしていない対象構成課題に対処する際の推論スキルの合成一般化に向けて一歩踏み出した。
アトミックタスク上の"アトミックCoT"モデルをComposable CoTデータでトレーニングし、マルチタスク学習やモデルマージと組み合わせて、ターゲットのコンポジションタスク上でのゼロショットパフォーマンスを改善することができる。
- 参考スコア(独自算出の注目度): 57.73731224510169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common approach for teaching large language models (LLMs) to reason is to train on chain-of-thought (CoT) traces of in-distribution reasoning problems, but such annotated data is costly to obtain for every problem of interest. We want reasoning models to generalize beyond their training distribution, and ideally to generalize compositionally: combine atomic reasoning skills to solve harder, unseen reasoning tasks. We take a step towards compositional generalization of reasoning skills when addressing a target compositional task that has no labeled CoT data. We find that simply training models on CoT data of atomic tasks leads to limited generalization, but minimally modifying CoT formats of constituent atomic tasks to be composable can lead to improvements. We can train "atomic CoT" models on the atomic tasks with Composable CoT data and combine them with multitask learning or model merging for better zero-shot performance on the target compositional task. Such a combined model can be further bootstrapped on a small amount of compositional data using rejection sampling fine-tuning (RFT). Results on string operations and natural language skill compositions show that training LLMs on Composable CoT outperforms multitask learning and continued fine-tuning baselines within a given training data budget.
- Abstract(参考訳): 大規模言語モデル(LLM)を推論に教える一般的なアプローチは、分布しない推論問題のチェーン・オブ・ソート(CoT)トレースをトレーニングすることであるが、そのような注釈付きデータは関心のあるすべての問題に対してコストがかかる。
私たちは、推論モデルをトレーニング分布を超えて一般化し、作曲を理想的に一般化し、原子推論スキルを組み合わせることで、より難しく、目に見えない推論タスクを解決したいと考えています。
我々はCoTデータをラベル付けしていない対象構成課題に対処する際の推論スキルの合成一般化に向けて一歩踏み出した。
原子タスクのCoTデータ上でのモデルのトレーニングは、限定的な一般化につながるが、構成可能な構成原子タスクのCoTフォーマットの最小限の変更は、改善につながる。
アトミックタスク上の"アトミックCoT"モデルをComposable CoTデータでトレーニングし、マルチタスク学習やモデルマージと組み合わせて、ターゲットのコンポジションタスク上でのゼロショットパフォーマンスを改善することができます。
このような組み合わせモデルは、リジェクションサンプリング微細チューニング(RFT)を使用して、少量の合成データに基づいてさらにブートストラップすることができる。
文字列操作と自然言語スキル構成の結果、Composable CoT上でのLLMのトレーニングは、与えられたトレーニングデータ予算内でマルチタスク学習を上回り、微調整のベースラインを継続することを示す。
関連論文リスト
- Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning [33.02060729778806]
小型言語モデル(SLM)におけるCoT蒸留の影響要因について検討した。
その結果, SLM は粒度と非単調な関係を示し, より微細な推論とより弱いモデルにより, より単純なCoT 監督下でより優れた性能を示すことがわかった。
これらの知見は、特定の学生モデルにCoT戦略を適合させることの必要性を強調し、SLMにおけるCoT蒸留を最適化するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-25T09:08:45Z) - TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.5952731807559]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。
推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。
このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文 参考訳(メタデータ) (2024-12-07T00:42:04Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - AS-ES Learning: Towards Efficient CoT Learning in Small Models [35.225382243612174]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)において重要な出現能力として機能する
本稿では,CoT内固有の情報を反復生成に活用したAS-ES学習手法を提案する。
実験により,データ拡張やモデル自体の変更を伴わずに,MWPやPET要約などのCoT集約タスクにおけるSeq2seqトレーニングを超越した手法が得られた。
論文 参考訳(メタデータ) (2024-03-04T12:13:59Z) - A Unified Causal View of Instruction Tuning [76.1000380429553]
メタ構造因果モデル(meta-SCM)を開発し、異なるNLPタスクをデータの単一因果構造の下で統合する。
主なアイデアは、タスク要求因果関係を学習し、タスクの予測にのみそれらを使用することである。
論文 参考訳(メタデータ) (2024-02-09T07:12:56Z) - Learning to Perform Complex Tasks through Compositional Fine-Tuning of
Language Models [20.173322408302134]
構成微調整は、対象タスクをコンポーネントタスクに明示的に分解するアプローチである。
CFTは、同じ量のデータでもエンド・ツー・エンドの学習より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-23T03:22:34Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in
Few-Shot NLP [68.43279384561352]
既存のデータ拡張アルゴリズムはタスク非依存のルールや微調整の汎用事前訓練言語モデルを利用する。
これらの手法は、簡単なタスク固有の知識を持ち、単純なタスクにおいて弱いベースラインのための低品質な合成データを得るに限られる。
我々は,様々なNLPタスクを予め学習したエンコーダ/デコーダLMの知識混合データ拡張モデル(KnowDA)を提案する。
論文 参考訳(メタデータ) (2022-06-21T11:34:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。