論文の概要: LLM-State: Expandable State Representation for Long-horizon Task
Planning in the Open World
- arxiv url: http://arxiv.org/abs/2311.17406v1
- Date: Wed, 29 Nov 2023 07:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:16:34.296921
- Title: LLM-State: Expandable State Representation for Long-horizon Task
Planning in the Open World
- Title(参考訳): LLM-State: オープンワールドにおける長期タスク計画のための拡張可能な状態表現
- Authors: Siwei Chen, Anxing Xiao, David Hsu
- Abstract要約: 本研究では,Large Language Model (LLM) を用いたオープンワールド家庭環境における長期タスクプランニングの問題に対処する。
既存の作業は、キーオブジェクトと属性を明示的に追跡することができない。
本稿では,オブジェクト属性の連続的な拡張と更新を提供する,新しい拡張可能な状態表現を提案する。
- 参考スコア(独自算出の注目度): 28.425337841581573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the problem of long-horizon task planning with the Large
Language Model (LLM) in an open-world household environment. Existing works
fail to explicitly track key objects and attributes, leading to erroneous
decisions in long-horizon tasks, or rely on highly engineered state features
and feedback, which is not generalizable. We propose a novel, expandable state
representation that provides continuous expansion and updating of object
attributes from the LLM's inherent capabilities for context understanding and
historical action reasoning. Our proposed representation maintains a
comprehensive record of an object's attributes and changes, enabling robust
retrospective summary of the sequence of actions leading to the current state.
This allows enhanced context understanding for decision-making in task
planning. We validate our model through experiments across simulated and
real-world task planning scenarios, demonstrating significant improvements over
baseline methods in a variety of tasks requiring long-horizon state tracking
and reasoning.
- Abstract(参考訳): 本研究は, オープンワールド家庭環境における大規模言語モデル(llm)を用いた長期ホリゾンタスク計画の問題に対処する。
既存の作業では、キーオブジェクトと属性を明示的に追跡することはできず、長いホリゾンタスクにおける誤った判断や、高度に設計された状態特徴とフィードバックに依存する。
本稿では,LLMのコンテキスト理解と過去の行動推論機能から,オブジェクト属性の連続的な拡張と更新を提供する,新しい拡張可能な状態表現を提案する。
提案する表現は、オブジェクトの属性と変更の包括的な記録を保持し、現在の状態につながるアクションのシーケンスの堅牢な振り返りサマリーを可能にする。
これにより、タスク計画における意思決定のコンテキスト理解が強化される。
シミュレーションおよび実世界のタスクプランニングシナリオをまたいで実験を行い、長期ホリゾン状態追跡と推論を必要とする様々なタスクにおいて、ベースラインメソッドよりも大きな改善を示す。
関連論文リスト
- ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning [7.668848364013772]
本稿では,RelePについて紹介する。
コアには細調整された大きな視覚言語モデルがあり、プランをスキル機能のシーケンスとして定式化している。
ReLEPは、幅広い日々のタスクをこなし、他の最先端のベースラインメソッドより優れている。
論文 参考訳(メタデータ) (2024-09-24T01:47:23Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。
近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。
我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文 参考訳(メタデータ) (2024-06-14T12:52:42Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - EvEntS ReaLM: Event Reasoning of Entity States via Language Models [24.077262847151232]
残念なことに、Large Language Model(LLM)は、オブジェクトの相互作用に関する手続き的な知識を公開しています。
特に,本研究の結果は,未確認属性(ドメイン外)や限られたデータしか利用できない場合に特に有用であることが示唆された。
論文 参考訳(メタデータ) (2022-11-10T07:48:01Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。