論文の概要: Distilling System 2 into System 1
- arxiv url: http://arxiv.org/abs/2407.06023v2
- Date: Tue, 9 Jul 2024 16:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 22:32:40.871864
- Title: Distilling System 2 into System 1
- Title(参考訳): システム2からシステム1へ
- Authors: Ping Yu, Jing Xu, Jason Weston, Ilia Kulikov,
- Abstract要約: 大規模言語モデル(LLM)は、中間思考を生成するために推論中に余分な計算に費やすことができる。
そこで本研究では, 従来のシステム1の性能と比較して, 改良された結果が得られることを示す。
- 参考スコア(独自算出の注目度): 35.194258450176534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can spend extra compute during inference to generate intermediate thoughts, which helps to produce better final responses. Since Chain-of-Thought (Wei et al., 2022), many such System 2 techniques have been proposed such as Rephrase and Respond (Deng et al., 2023a), System 2 Attention (Weston and Sukhbaatar, 2023) and Branch-Solve-Merge (Saha et al., 2023). In this work we investigate self-supervised methods to ``compile'' (distill) higher quality outputs from System 2 techniques back into LLM generations without intermediate reasoning token sequences, as this reasoning has been distilled into System 1. We show that several such techniques can be successfully distilled, resulting in improved results compared to the original System 1 performance, and with less inference cost than System 2. We posit that such System 2 distillation will be an important feature of future continually learning AI systems, enabling them to focus System 2 capabilities on the reasoning tasks that they cannot yet do well.
- Abstract(参考訳): 大規模言語モデル(LLM)は、中間的な思考を生成するために推論中に余分な計算に費やし、より優れた最終応答を生成するのに役立つ。
Chain-of-Thought (Wei et al , 2022)以降、Rephrase and Respond (Deng et al , 2023a)、System 2 Attention (Weston and Sukhbaatar, 2023)、Branch-Solve-Merge (Saha et al , 2023)など多くのシステム2技術が提案されている。
本研究は,システム2において,中間的推論トークンシーケンスを使わずに,システム2技術からLLM世代への高品質出力を<compile'(希釈)する自己指導手法について検討する。
1. 従来の System 1 の性能に比べ, 性能が向上し, 推論コストも System 1 よりも低い結果が得られた。
2. このようなシステム2の蒸留は,今後継続的に学習するAIシステムにとって重要な特徴であり,システム2の能力は,まだうまくいかない推論タスクに焦点を合わせることができると仮定する。
関連論文リスト
- System-1.x: Learning to Balance Fast and Slow Planning with Language Models [68.77277620915143]
言語モデルは、2つの異なるモードで長期計画問題の解決に使用できる。
高速な 'System-1' モード、明示的な検索やバックトラックなしで直接計画を生成する、遅い 'System-2' モード、ステップバイステップの計画。
LLMを用いた制御可能な計画フレームワークであるSystem-1.x Plannerを提案する。
論文 参考訳(メタデータ) (2024-07-19T15:40:59Z) - Clarifying System 1 & 2 through the Common Model of Cognition [0.0]
認識の共通モデルを用いてシステム1とシステム2を接地する。
本研究の目的は,その基盤となるメカニズム,誤解の持続,メタ認知への示唆を明らかにすることである。
論文 参考訳(メタデータ) (2023-05-18T02:25:03Z) - AAAI 2022 Fall Symposium: System-1 and System-2 realized within the
Common Model of Cognition [0.0]
認知の共通モデルにSystem-1とSystem-2を配置する。
その結果, System-1 と 2 の特徴的な特徴と考えられるものは,その代わりに認知特性のスペクトルを形成することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-16T01:28:06Z) - Learning Physical Concepts in Cyber-Physical Systems: A Case Study [72.74318982275052]
本稿では,時系列データにおける物理概念の学習方法に関する研究の現状について概説する。
また,3タンクシステムの例を用いて,最先端技術から最も重要な手法を分析した。
論文 参考訳(メタデータ) (2021-11-28T14:24:52Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Determining Sentencing Recommendations and Patentability Using a Machine
Learning Trained Expert System [0.0]
本稿では機械学習エキスパートシステム(MLES)を用いた2つの研究について述べる。
ある研究では、一貫した連邦刑事判決についてアメリカ合衆国連邦判事に助言するシステムに焦点を当てている。
もう一つの研究は、米国特許商標庁が特許性評価プロセスの自動化を支援するシステムを開発することを目的としている。
論文 参考訳(メタデータ) (2021-08-05T16:21:29Z) - The Hitachi-JHU DIHARD III System: Competitive End-to-End Neural
Diarization and X-Vector Clustering Systems Combined by DOVER-Lap [67.395341302752]
本稿では,第3回DIHARD音声ダイアリゼーションチャレンジに提出された日立-JHUシステムについて詳述する。
このシステムは、2つのxベクターベースのサブシステム、2つのエンドツーエンドのニューラルダイアリゼーションベースのサブシステム、1つのハイブリッドサブシステムという5つのサブシステムのアンサンブル結果を出力する。
論文 参考訳(メタデータ) (2021-02-02T07:30:44Z) - Interleaving Fast and Slow Decision Making [7.41244589428771]
Kahneman氏は、あるタスクに対して高速で直感的なシステム1と、遅くてより分析的なシステム2という、2つの異なる思考スタイルを使うことを提案している。
システム1とシステム2を監督する新しいシステム0を含む,新規で汎用的なフレームワークを提案する。
従来のパックマンゲームの改良版において,システム1のRLアルゴリズム,システム2のモンテカルロ木探索,システム0のいくつかの異なる戦略を用いて,そのようなフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-10-30T13:16:10Z) - COVCOR20 at WNUT-2020 Task 2: An Attempt to Combine Deep Learning and
Expert rules [0.0]
WNUT-2020 Task 2の範囲内で,深層学習モデルと言語情報を用いたテキスト分類システムを開発した。
いずれのディープラーニングシステムも言語的に情報提供されたルールでシステムより優れていますが,3つのシステムの統合(出力)により,より優れたパフォーマンスを実現することが可能であることが分かりました。
論文 参考訳(メタデータ) (2020-09-07T15:54:23Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。