論文の概要: Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces
- arxiv url: http://arxiv.org/abs/2410.09918v1
- Date: Sun, 13 Oct 2024 16:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:13:22.690843
- Title: Dualformer: Controllable Fast and Slow Thinking by Learning with Randomized Reasoning Traces
- Title(参考訳): Dualformer:ランダムな推論トレースによる学習による制御可能な高速・スロー思考
- Authors: DiJia Su, Sainbayar Sukhbaatar, Michael Rabbat, Yuandong Tian, Qinqing Zheng,
- Abstract要約: 人間の思考は、システム1とシステム2の2つのシステムによって管理されている。
近年, System 2 プロセスを Transformer に組み込むことで推論能力が大きく向上することが報告されている。
高速かつ低速な推論モードをシームレスに統合する単一トランスフォーマーモデルであるDualformerを提案する。
- 参考スコア(独自算出の注目度): 40.127653552777204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In human cognition theory, human thinking is governed by two systems: the fast and intuitive System 1 and the slower but more deliberative System 2. Recent studies have shown that incorporating System 2 process into Transformers including large language models (LLMs), significantly enhances their reasoning capabilities. Nevertheless, models that purely resemble System 2 thinking require substantially higher computational costs and are much slower to respond. To address this challenge, we present Dualformer, a single Transformer model that seamlessly integrates both the fast and slow reasoning modes. Dualformer is obtained by training on data with randomized reasoning traces, where different parts of the traces are dropped during training. The dropping strategies are specifically tailored according to the trace structure, analogous to analyzing our thinking process and creating shortcuts with patterns. At inference time, our model can be configured to output only the solutions (fast mode) or both the reasoning chain and the final solution (slow mode), or automatically decide which mode to engage (auto mode). In all cases, Dualformer outperforms the corresponding baseline models in both performance and computational efficiency: (1) in slow mode, Dualformer optimally solves unseen 30 x 30 maze navigation tasks 97.6% of the time, surpassing the Searchformer (trained on data with complete reasoning traces) baseline performance of 93.3%, while only using 45.5% fewer reasoning steps; (2) in fast mode, Dualformer completes those tasks with an 80% optimal rate, significantly outperforming the Solution-Only model (trained on solution-only data), which has an optimal rate of only 30%. For math problems, our techniques have also achieved improved performance with LLM fine-tuning, showing its generalization beyond task-specific models.
- Abstract(参考訳): 人間の認知理論では、人間の思考は、高速で直感的なシステム1と遅いがより熟考的なシステム2の2つのシステムによって支配される。
近年の研究では,大規模言語モデル(LLM)を含むトランスフォーマーにSystem 2プロセスを導入することにより,推論能力が大幅に向上することが示されている。
それでも、システム2と純粋に類似しているモデルは、計算コストが大幅に高く、応答が遅くなる。
この課題に対処するために,高速かつ低速な推論モードをシームレスに統合する単一トランスフォーマーモデルであるDualformerを提案する。
Dualformerは、ランダムな推論トレースを持つデータに基づいて、トレーニング中にトレースの異なる部分がドロップされるトレーニングによって得られる。
ドロップ戦略は、私たちの思考プロセスを分析し、パターンでショートカットを作成するのと類似した、トレース構造に従って特に調整されます。
推論時に、我々のモデルは、解(高速モード)または推論チェーンと最終解(スローモード)の両方を出力するか、または、どのモードをアクティベートするか(オートモード)を自動的に決定できる。
いずれの場合も、Dualformerはパフォーマンスと計算効率の両方で対応するベースラインモデルを上回っている: (1) 遅いモードでは、Dualformerは30 x 30の迷路ナビゲーションタスクを最適に解き、97.6%はサーチフォーマー(完全な推論トレースを持つデータで訓練されたデータで訓練された)のベースライン性能を93.3%に上回り、45.5%の推論ステップしか使用していない。
数学問題では,LLMファインチューニングによる性能向上も達成されており,タスク固有モデルを超えて一般化されている。
関連論文リスト
- Concept Distillation from Strong to Weak Models via Hypotheses-to-Theories Prompting [7.146498833443095]
概念蒸留(CD)は、複雑なタスクにおいてより弱いモデルを強化するための自動プロンプト最適化手法である。
CDは、(1)ベースプロンプト(初期化)による弱いモデルによるミスの収集、(2)強いモデルを使用してこれらのミスの原因を生成し、弱いモデル(推論)のためのルール/概念を作成し、(3)検証セットのパフォーマンスに基づいてこれらのルールをフィルタリングする。
我々はNL2Codeと数学的推論タスクにおけるCDの評価を行い、より小型で弱い言語モデルに対する顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2024-08-18T05:37:48Z) - Diffusion Models as Optimizers for Efficient Planning in Offline RL [47.0835433289033]
拡散モデルはオフラインの強化学習タスクにおいて強い競争力を示している。
本稿では,より高速な自己回帰モデルを提案する。
これにより、能力を犠牲にすることなく、より効率的な計画を達成することができます。
論文 参考訳(メタデータ) (2024-07-23T03:00:01Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Two-Stage Triplet Loss Training with Curriculum Augmentation for
Audio-Visual Retrieval [3.164991885881342]
クロス検索モデルは堅牢な埋め込み空間を学習する。
この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを導入する。
本稿では,モデルの学習過程をセミハードからハードトリップにガイドする2段階の学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T12:35:54Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。