論文の概要: Statler: State-Maintaining Language Models for Embodied Reasoning
- arxiv url: http://arxiv.org/abs/2306.17840v3
- Date: Mon, 4 Dec 2023 23:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 19:57:23.735621
- Title: Statler: State-Maintaining Language Models for Embodied Reasoning
- Title(参考訳): Statler: 身体的推論のための状態維持型言語モデル
- Authors: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang,
Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter
- Abstract要約: 本研究では,大言語モデルに世界状態を推定するフレームワークであるStatlerを提案する。
そして、我々のフレームワークは、現在の世界状態の推定に対して各アクションを条件付けします。
本フレームワークは, ロボット計画タスクにおいて, 強靭な競合手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 20.546323275921235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a significant research interest in employing large language
models to empower intelligent robots with complex reasoning. Existing work
focuses on harnessing their abilities to reason about the histories of their
actions and observations. In this paper, we explore a new dimension in which
large language models may benefit robotics planning. In particular, we propose
Statler, a framework in which large language models are prompted to maintain an
estimate of the world state, which are often unobservable, and track its
transition as new actions are taken. Our framework then conditions each action
on the estimate of the current world state. Despite being conceptually simple,
our Statler framework significantly outperforms strong competing methods (e.g.,
Code-as-Policies) on several robot planning tasks. Additionally, it has the
potential advantage of scaling up to more challenging long-horizon planning
tasks. We release our code at https://github.com/ripl/statler
- Abstract(参考訳): 知的ロボットを複雑な推論で強化するために、大きな言語モデルを使うことに大きな研究関心が寄せられている。
既存の研究は、彼らの行動と観察の歴史を解明するために彼らの能力を活用することに焦点を当てている。
本稿では,ロボット工学の計画において,大規模言語モデルが有用となる新しい次元について検討する。
特に,大規模な言語モデルに対して,しばしば観測不可能な世界状態の推定を指示し,その遷移を新たな行動として追跡するフレームワークであるStatlerを提案する。
次に、我々のフレームワークは、現在の世界状態の推定に対して各アクションを規定する。
概念的には単純であるにもかかわらず、我々のStatlerフレームワークはいくつかのロボット計画タスクにおいて強力な競合する手法(Code-as-Policiesなど)を著しく上回っている。
さらに、より困難な長期計画タスクにスケールアップする潜在的なメリットもある。
コードをhttps://github.com/ripl/statlerでリリースします。
関連論文リスト
- Yell At Your Robot: Improving On-the-Fly from Language Corrections [84.09578841663195]
高いレベルのポリシーは、人間のフィードバックによって言語修正の形で容易に管理できることを示す。
このフレームワークは、ロボットがリアルタイムの言語フィードバックに迅速に適応するだけでなく、このフィードバックを反復的なトレーニングスキームに組み込むことを可能にする。
論文 参考訳(メタデータ) (2024-03-19T17:08:24Z) - Safe Task Planning for Language-Instructed Multi-Robot Systems using
Conformal Prediction [13.053013407015628]
ミッション成功率の高い分散型マルチロボットプランナを新たに導入する。
これは、分布のない不確実性定量化ツールである共形予測(CP)をブラックボックスモデルで活用することで達成される。
理論的にも経験的にも,提案したプランナは,ヘルプリクエストの総数を最小限に抑えながら,ユーザ特定タスクの成功率を達成可能であることを示す。
論文 参考訳(メタデータ) (2024-02-23T15:02:44Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Language Models, Agent Models, and World Models: The LAW for Machine
Reasoning and Planning [33.573628038590634]
本稿では,言語モデル,エージェントモデル,世界モデルの概念を結合するマシン推論の新たな視点であるLAWについて述べる。
世界とエージェントモデルは推論のより優れた抽象化であり、故意に人間のような推論の重要な要素を導入します。
論文 参考訳(メタデータ) (2023-12-08T18:25:22Z) - PlaSma: Making Small Language Models Better Procedural Knowledge Models
for (Counterfactual) Planning [72.0564921186518]
PlaSmaは、手続き的な知識と(非現実的な)計画能力を持つ小さな言語モデルを実現するための、新しい2段階のアプローチである。
より具体的には、小言語モデルにおける暗黙的知識を高めるために、記号的手続き的知識蒸留を開発する。
さらに, 対実的状況に対応するための計画の見直しを必要とする, 対実的計画という新たな課題を導入する。
論文 参考訳(メタデータ) (2023-05-31T00:55:40Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。