Fugu-MT 論文翻訳(概要): Statler: State-Maintaining Language Models for Embodied Reasoning

論文の概要: Statler: State-Maintaining Language Models for Embodied Reasoning

arxiv url: http://arxiv.org/abs/2306.17840v2
Date: Mon, 3 Jul 2023 16:32:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-04 10:17:56.249049
Title: Statler: State-Maintaining Language Models for Embodied Reasoning
Title（参考訳）: Statler: 身体的推論のための状態維持型言語モデル
Authors: Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter
Abstract要約: Statlerは、時間とともに維持される'メモリの形式として、世界状態を明確に表現した大きな言語モデルを提供するフレームワークである。本研究では,3つの模擬テーブルトップ操作領域と実ロボット領域に対するアプローチの有効性を評価する。
参考スコア（独自算出の注目度）: 16.58395488060814
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) provide a promising tool that enable robots to perform complex robot reasoning tasks. However, the limited context window of contemporary LLMs makes reasoning over long time horizons difficult. Embodied tasks such as those that one might expect a household robot to perform typically require that the planner consider information acquired a long time ago (e.g., properties of the many objects that the robot previously encountered in the environment). Attempts to capture the world state using an LLM's implicit internal representation is complicated by the paucity of task- and environment-relevant information available in a robot's action history, while methods that rely on the ability to convey information via the prompt to the LLM are subject to its limited context window. In this paper, we propose Statler, a framework that endows LLMs with an explicit representation of the world state as a form of ``memory'' that is maintained over time. Integral to Statler is its use of two instances of general LLMs -- a world-model reader and a world-model writer -- that interface with and maintain the world state. By providing access to this world state ``memory'', Statler improves the ability of existing LLMs to reason over longer time horizons without the constraint of context length. We evaluate the effectiveness of our approach on three simulated table-top manipulation domains and a real robot domain, and show that it improves the state-of-the-art in LLM-based robot reasoning. Project website: https://statler-lm.github.io/
Abstract（参考訳）: 大きな言語モデル(LLM)は、ロボットが複雑なロボット推論タスクを実行できる有望なツールを提供する。しかし、現代のllmの限られたコンテキストウィンドウは、長い時間軸の推論を困難にしている。家庭内ロボットが行うことを期待するタスクのような具体化されたタスクは、プランナーが以前から取得した情報を考慮しなければならない(例えば、以前に環境においてロボットが遭遇した多くのオブジェクトの特性)。 LLMの暗黙的な内部表現を用いて世界状態を捉えようとする試みは、ロボットの行動履歴で利用可能なタスク関連および環境関連情報の明細さによって複雑であり、LLMへのプロンプトを介して情報を伝える能力に依存する手法は、その限られたコンテキストウインドウに従う。本稿では,世界状態の明示的な表現を,時間とともに維持される ``memory'' の形式としてllmを内包するフレームワークである statler を提案する。 Statlerと統合することは、世界モデルリーダーと世界モデルライターである一般LLMの2つのインスタンスを使用して、世界状態とインターフェースし、維持することです。この世界状態 ``Memory'' へのアクセスを提供することで、Statler はコンテキスト長の制約なしに、既存の LLM が長い時間的水平線を推論する能力を向上させる。シミュレーションによる3つのテーブルトップ操作領域と実ロボットドメインの有効性を評価し,llmに基づくロボット推論における最先端技術の改善を示す。プロジェクトウェブサイト: https://statler-lm.github.io/

関連論文リスト

Can LLM-Reasoning Models Replace Classical Planning? A Benchmark Study [0.0]
大規模言語モデルは、ロボットタスク計画への関心を喚起している。これらのモデルは強力な生成能力を示すが、構造的かつ実行可能な計画の作成における有効性は未だ不明である。本稿では,芸術言語モデルの現状の幅広いスペクトルを体系的に評価する。
論文参考訳（メタデータ） (2025-07-31T14:25:54Z)
Object-Centric World Model for Language-Guided Manipulation [4.008780119020479]
エージェントが自律運転やロボット工学といった分野の将来と計画を予測するためには,世界モデルが不可欠である。本稿では,言語命令で案内されたスロットアテンションを用いて,オブジェクト中心の表現空間を活用する世界モデルを提案する。本モデルでは,オブジェクト中心の表現として現在の状態を認識し,この表現空間における将来の状態を自然言語命令で予測する。
論文参考訳（メタデータ） (2025-03-08T11:17:37Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。 CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文参考訳（メタデータ） (2024-09-02T15:27:48Z)
LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文参考訳（メタデータ） (2024-04-03T23:57:34Z)
Probabilistically Correct Language-based Multi-Robot Planning using Conformal Prediction [11.614036749291216]
本稿では,S-ATLAS for Safe plAnning for Teams of Language-instructed Agentsを提案する。提案したプランナは,計画実行が成功すると仮定して,ユーザ指定のタスク成功率を達成可能であることを示す。我々は,本手法が計算効率が高く,ヘルプレートが低いことを示す関連研究との比較実験を行った。
論文参考訳（メタデータ） (2024-02-23T15:02:44Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning [33.573628038590634]
本稿では,言語モデル,エージェントモデル,世界モデルの概念を結合するマシン推論の新たな視点であるLAWについて述べる。世界とエージェントモデルは推論のより優れた抽象化であり、故意に人間のような推論の重要な要素を導入します。
論文参考訳（メタデータ） (2023-12-08T18:25:22Z)
CoPAL: Corrective Planning of Robot Actions with Large Language Models [8.209152055117283]
本稿では,認知レベル間のシームレスな相互作用を編成し,推論,計画,動作生成を包含するシステムアーキテクチャを提案する。中心となるのは、生成した計画における物理的に基底的、論理的、セマンティックなエラーを処理する、新しいリプラン戦略である。
論文参考訳（メタデータ） (2023-10-11T07:39:42Z)
PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning [77.03847056008598]
PlaSmaは、手続き的な知識と(制約のある)言語計画能力を持つ小さな言語モデルを実現するための、新しい2段階のアプローチである。我々は,小言語モデルにおけるコモンセンス知識を高めるための記号的手続き的知識蒸留法と,より構造化された正確な推論を容易にする推論時アルゴリズムを開発する。
論文参考訳（メタデータ） (2023-05-31T00:55:40Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文参考訳（メタデータ） (2022-06-09T17:05:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。