論文の概要: System-1.x: Learning to Balance Fast and Slow Planning with Language Models
- arxiv url: http://arxiv.org/abs/2407.14414v1
- Date: Fri, 19 Jul 2024 15:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 16:55:32.302352
- Title: System-1.x: Learning to Balance Fast and Slow Planning with Language Models
- Title(参考訳): System-1.x: 言語モデルによる高速かつスロープランニングのバランスをとるための学習
- Authors: Swarnadeep Saha, Archiki Prasad, Justin Chih-Yao Chen, Peter Hase, Elias Stengel-Eskin, Mohit Bansal,
- Abstract要約: 言語モデルは、2つの異なるモードで長期計画問題の解決に使用できる。
高速な 'System-1' モード、明示的な検索やバックトラックなしで直接計画を生成する、遅い 'System-2' モード、ステップバイステップの計画。
LLMを用いた制御可能な計画フレームワークであるSystem-1.x Plannerを提案する。
- 参考スコア(独自算出の注目度): 68.77277620915143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models can be used to solve long-horizon planning problems in two distinct modes: a fast 'System-1' mode, directly generating plans without any explicit search or backtracking, and a slow 'System-2' mode, planning step-by-step by explicitly searching over possible actions. While System-2 is typically more effective, it is also more computationally expensive, making it infeasible for long plans or large action spaces. Moreover, isolated System-1 or 2 ignores the user's end goals, failing to provide ways to control the model's behavior. To this end, we propose the System-1.x Planner, a controllable planning framework with LLMs that is capable of generating hybrid plans and balancing between the two planning modes based on the difficulty of the problem at hand. System-1.x consists of (i) a controller, (ii) a System-1 Planner, and (iii) a System-2 Planner. Based on a user-specified hybridization factor (x) governing the mixture between System-1 and 2, the controller decomposes a problem into sub-goals, and classifies them as easy or hard to be solved by either System-1 or 2, respectively. We fine-tune all three components on top of a single base LLM, requiring only search traces as supervision. Experiments with two diverse planning tasks -- Maze Navigation and Blocksworld -- show that our System-1.x Planner outperforms a System-1 Planner, a System-2 Planner trained to approximate A* search, and also a symbolic planner (A*). We demonstrate the following key properties of our planner: (1) controllability: increasing the hybridization factor (e.g., System-1.75 vs 1.5) performs more search, improving performance, (2) flexibility: by building a neuro-symbolic variant with a neural System-1 and a symbolic System-2, we can use existing symbolic methods, and (3) generalizability: by being able to learn from different search algorithms, our method is robust to the choice of search algorithm.
- Abstract(参考訳): 言語モデルは、高速な'System-1'モード、明示的な検索やバックトラックなしで直接計画を生成する'System-2'モード、考えられるアクションを明示的に検索することでステップバイステップで計画する'System-2'モードの2つのモードで、長期計画問題を解決するために使用できる。
System-2は一般的により効率的であるが、計算コストも高く、長い計画や大きなアクションスペースでは利用できない。
さらに、分離されたSystem-1または2は、ユーザーのエンドゴールを無視し、モデルの振る舞いを制御する方法を提供していない。
そこで本研究では,LLMを用いた制御可能なプランニングフレームワークであるSystem-1.x Plannerを提案する。
System-1.x は
(i)コントローラ
(ii)システム1プランナー及び
(3) System-2 プランナー。
System-1と2の混合を規定するユーザ特定ハイブリッド化係数(x)に基づいて、コントローラは、問題をサブゴールに分解し、System-1と2のどちらでも容易に解ける、あるいは難易度に分類する。
単一のLLM上に3つのコンポーネントをすべて微調整し、監視対象として検索トレースのみを必要とします。
Maze NavigationとBlocksworldという2つの多様な計画課題の実験では、System-1.x PlannerはSystem-1 Plannerよりも優れており、System-2 PlannerはA*探索を近似するために訓練されたSystem-2 Plannerとシンボルプランナー(A*)を上回ります。
制御性: ハイブリッド化係数(例えば、System-1.75 vs 1.5)の増大により、より探索、性能の向上、柔軟性: ニューラルシステム-1とシンボリックシステム-2でニューラルシンボリックな変種を構築することにより、既存のシンボリックな手法を使うことができる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - When is Tree Search Useful for LLM Planning? It Depends on the Discriminator [15.75807429396126]
大規模言語モデル(LLM)は、ジェネレータ、識別器、計画方法という3つのコンポーネントを持つ言語エージェントフレームワークの下で、多段階の問題を解決する。
本稿では,先進的な計画手法を用いて,識別精度がエージェント全体の性能に与える影響を包括的に分析する。
論文 参考訳(メタデータ) (2024-02-16T18:45:58Z) - Layered controller synthesis for dynamic multi-agent systems [0.0]
本稿では,多エージェント制御問題に対する階層的アプローチを3段階に分割する。
SWA-SMTソリューションは,ニューラルネットワーク制御ポリシ獲得を目的とした,最終段階の初期トレーニングデータセットとして使用しています。
論文 参考訳(メタデータ) (2023-07-13T13:56:27Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Extended Task and Motion Planning of Long-horizon Robot Manipulation [28.951816622135922]
タスクとモーション計画(TAMP)には、シンボリック推論とメトリックモーション計画の統合が必要です。
ほとんどのtampアプローチは、シンボリックレベルで環境に関する知識が欠けている場合、実現可能なソリューションを提供しない。
本稿では,計画骨格と行動パラメータに対する決定空間の拡張に関する新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2021-03-09T14:44:08Z) - Interleaving Fast and Slow Decision Making [7.41244589428771]
Kahneman氏は、あるタスクに対して高速で直感的なシステム1と、遅くてより分析的なシステム2という、2つの異なる思考スタイルを使うことを提案している。
システム1とシステム2を監督する新しいシステム0を含む,新規で汎用的なフレームワークを提案する。
従来のパックマンゲームの改良版において,システム1のRLアルゴリズム,システム2のモンテカルロ木探索,システム0のいくつかの異なる戦略を用いて,そのようなフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-10-30T13:16:10Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z) - STRIPS Action Discovery [67.73368413278631]
近年のアプローチでは、すべての中間状態が欠如している場合でも、アクションモデルを合成する古典的な計画が成功している。
アクションシグネチャが不明な場合に,従来のプランナーを用いてSTRIPSアクションモデルを教師なしで合成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T17:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。