論文の概要: LLM-State: Expandable State Representation for Long-horizon Task
Planning in the Open World
- arxiv url: http://arxiv.org/abs/2311.17406v1
- Date: Wed, 29 Nov 2023 07:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:16:34.296921
- Title: LLM-State: Expandable State Representation for Long-horizon Task
Planning in the Open World
- Title(参考訳): LLM-State: オープンワールドにおける長期タスク計画のための拡張可能な状態表現
- Authors: Siwei Chen, Anxing Xiao, David Hsu
- Abstract要約: 本研究では,Large Language Model (LLM) を用いたオープンワールド家庭環境における長期タスクプランニングの問題に対処する。
既存の作業は、キーオブジェクトと属性を明示的に追跡することができない。
本稿では,オブジェクト属性の連続的な拡張と更新を提供する,新しい拡張可能な状態表現を提案する。
- 参考スコア(独自算出の注目度): 28.425337841581573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the problem of long-horizon task planning with the Large
Language Model (LLM) in an open-world household environment. Existing works
fail to explicitly track key objects and attributes, leading to erroneous
decisions in long-horizon tasks, or rely on highly engineered state features
and feedback, which is not generalizable. We propose a novel, expandable state
representation that provides continuous expansion and updating of object
attributes from the LLM's inherent capabilities for context understanding and
historical action reasoning. Our proposed representation maintains a
comprehensive record of an object's attributes and changes, enabling robust
retrospective summary of the sequence of actions leading to the current state.
This allows enhanced context understanding for decision-making in task
planning. We validate our model through experiments across simulated and
real-world task planning scenarios, demonstrating significant improvements over
baseline methods in a variety of tasks requiring long-horizon state tracking
and reasoning.
- Abstract(参考訳): 本研究は, オープンワールド家庭環境における大規模言語モデル(llm)を用いた長期ホリゾンタスク計画の問題に対処する。
既存の作業では、キーオブジェクトと属性を明示的に追跡することはできず、長いホリゾンタスクにおける誤った判断や、高度に設計された状態特徴とフィードバックに依存する。
本稿では,LLMのコンテキスト理解と過去の行動推論機能から,オブジェクト属性の連続的な拡張と更新を提供する,新しい拡張可能な状態表現を提案する。
提案する表現は、オブジェクトの属性と変更の包括的な記録を保持し、現在の状態につながるアクションのシーケンスの堅牢な振り返りサマリーを可能にする。
これにより、タスク計画における意思決定のコンテキスト理解が強化される。
シミュレーションおよび実世界のタスクプランニングシナリオをまたいで実験を行い、長期ホリゾン状態追跡と推論を必要とする様々なタスクにおいて、ベースラインメソッドよりも大きな改善を示す。
関連論文リスト
- AutoGPT+P: Affordance-based Task Planning with Large Language Models [7.48202550092962]
AutoGPT+Pは、余裕に基づくシーン表現と計画システムを組み合わせたシステムである。
提案手法は,現在最先端のLCM計画手法であるSayCanの81%の成功率を超え,98%の成功率を達成した。
論文 参考訳(メタデータ) (2024-02-16T16:00:50Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal Large Language Models [84.6451394629312]
実世界のシナリオにおけるマルチモーダル言語モデル(MLLM)の具体的タスクプランナとしての可能性について定量的に検討する。
我々のベンチマークは、現実世界のビデオから得られた現実的なタスク、何百もの異なるオブジェクトとのインタラクションを含む多様なアクションセット、そして様々なシーンからの複雑な視覚的観察によって区別されている。
本研究では,複雑な実世界の状況下での高度タスク計画の学習を容易にするために,インストラクションチューニングデータセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - EvEntS ReaLM: Event Reasoning of Entity States via Language Models [24.077262847151232]
残念なことに、Large Language Model(LLM)は、オブジェクトの相互作用に関する手続き的な知識を公開しています。
特に,本研究の結果は,未確認属性(ドメイン外)や限られたデータしか利用できない場合に特に有用であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T07:48:01Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。