論文の概要: LLM-State: Open World State Representation for Long-horizon Task Planning with Large Language Model
- arxiv url: http://arxiv.org/abs/2311.17406v2
- Date: Mon, 22 Apr 2024 08:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:13:26.532174
- Title: LLM-State: Open World State Representation for Long-horizon Task Planning with Large Language Model
- Title(参考訳): LLM-State:大規模言語モデルを用いた長期タスク計画のためのオープンワールドステート表現
- Authors: Siwei Chen, Anxing Xiao, David Hsu,
- Abstract要約: 本研究では,Large Language Model (LLM) を用いたオープンワールド家庭環境における長期タスクプランニングの問題に対処する。
既存の作業は、キーオブジェクトと属性を明示的に追跡することができない。
オブジェクト属性の連続的な拡張と更新を提供するオープンステート表現を提案する。
- 参考スコア(独自算出の注目度): 25.29170146456063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the problem of long-horizon task planning with the Large Language Model (LLM) in an open-world household environment. Existing works fail to explicitly track key objects and attributes, leading to erroneous decisions in long-horizon tasks, or rely on highly engineered state features and feedback, which is not generalizable. We propose an open state representation that provides continuous expansion and updating of object attributes from the LLM's inherent capabilities for context understanding and historical action reasoning. Our proposed representation maintains a comprehensive record of an object's attributes and changes, enabling robust retrospective summary of the sequence of actions leading to the current state. This allows continuously updating world model to enhance context understanding for decision-making in task planning. We validate our model through experiments across simulated and real-world task planning scenarios, demonstrating significant improvements over baseline methods in a variety of tasks requiring long-horizon state tracking and reasoning. (Video\footnote{Video demonstration: \url{https://youtu.be/QkN-8pxV3Mo}.})
- Abstract(参考訳): 本研究では,Large Language Model (LLM) を用いたオープンワールド家庭環境における長期タスクプランニングの問題に対処する。
既存の作業では、キーオブジェクトや属性を明示的に追跡することができないため、長い水平タスクの誤った決定や、高度にエンジニアリングされた状態機能やフィードバックに依存しているため、一般化はできない。
本研究では,LLMのコンテキスト理解と過去の行動推論機能から,オブジェクト属性の連続的な拡張と更新を提供するオープンステート表現を提案する。
提案した表現は、オブジェクトの属性と変更の包括的な記録を保持し、現在の状態につながるアクションのシーケンスの堅牢なリフレクションサマリを可能にする。
これにより、世界モデルを継続的に更新し、タスク計画における意思決定のコンテキスト理解を強化することができる。
シミュレーションおよび実世界のタスク計画シナリオにおける実験を通じてモデルを検証し、長い水平状態追跡と推論を必要とする様々なタスクにおいて、ベースラインメソッドよりも大幅に改善されていることを示す。
(ビデオ\footnote{Video demo: \url{https://youtu.be/QkN-8pxV3Mo})
)。
関連論文リスト
- AutoGPT+P: Affordance-based Task Planning with Large Language Models [7.48202550092962]
AutoGPT+Pは、余裕に基づくシーン表現と計画システムを組み合わせたシステムである。
提案手法は,現在最先端のLCM計画手法であるSayCanの81%の成功率を超え,98%の成功率を達成した。
論文 参考訳(メタデータ) (2024-02-16T16:00:50Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models [84.6451394629312]
実世界のシナリオにおけるマルチモーダル言語モデル(MLLM)の具体的タスクプランナとしての可能性について定量的に検討する。
我々のベンチマークは、現実世界のビデオから得られた現実的なタスク、何百もの異なるオブジェクトとのインタラクションを含む多様なアクションセット、そして様々なシーンからの複雑な視覚的観察によって区別されている。
本研究では,複雑な実世界の状況下での高度タスク計画の学習を容易にするために,インストラクションチューニングデータセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - EvEntS ReaLM: Event Reasoning of Entity States via Language Models [24.077262847151232]
残念なことに、Large Language Model(LLM)は、オブジェクトの相互作用に関する手続き的な知識を公開しています。
特に,本研究の結果は,未確認属性(ドメイン外)や限られたデータしか利用できない場合に特に有用であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T07:48:01Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。