Fugu-MT 論文翻訳(概要): LLM-State: Expandable State Representation for Long-horizon Task Planning in the Open World

論文の概要: LLM-State: Expandable State Representation for Long-horizon Task Planning in the Open World

arxiv url: http://arxiv.org/abs/2311.17406v1
Date: Wed, 29 Nov 2023 07:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 22:16:34.296921
Title: LLM-State: Expandable State Representation for Long-horizon Task Planning in the Open World
Title（参考訳）: LLM-State: オープンワールドにおける長期タスク計画のための拡張可能な状態表現
Authors: Siwei Chen, Anxing Xiao, David Hsu
Abstract要約: 本研究では,Large Language Model (LLM) を用いたオープンワールド家庭環境における長期タスクプランニングの問題に対処する。既存の作業は、キーオブジェクトと属性を明示的に追跡することができない。本稿では,オブジェクト属性の連続的な拡張と更新を提供する,新しい拡張可能な状態表現を提案する。
参考スコア（独自算出の注目度）: 28.425337841581573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work addresses the problem of long-horizon task planning with the Large Language Model (LLM) in an open-world household environment. Existing works fail to explicitly track key objects and attributes, leading to erroneous decisions in long-horizon tasks, or rely on highly engineered state features and feedback, which is not generalizable. We propose a novel, expandable state representation that provides continuous expansion and updating of object attributes from the LLM's inherent capabilities for context understanding and historical action reasoning. Our proposed representation maintains a comprehensive record of an object's attributes and changes, enabling robust retrospective summary of the sequence of actions leading to the current state. This allows enhanced context understanding for decision-making in task planning. We validate our model through experiments across simulated and real-world task planning scenarios, demonstrating significant improvements over baseline methods in a variety of tasks requiring long-horizon state tracking and reasoning.
Abstract（参考訳）: 本研究は, オープンワールド家庭環境における大規模言語モデル(llm)を用いた長期ホリゾンタスク計画の問題に対処する。既存の作業では、キーオブジェクトと属性を明示的に追跡することはできず、長いホリゾンタスクにおける誤った判断や、高度に設計された状態特徴とフィードバックに依存する。本稿では,LLMのコンテキスト理解と過去の行動推論機能から,オブジェクト属性の連続的な拡張と更新を提供する,新しい拡張可能な状態表現を提案する。提案する表現は、オブジェクトの属性と変更の包括的な記録を保持し、現在の状態につながるアクションのシーケンスの堅牢な振り返りサマリーを可能にする。これにより、タスク計画における意思決定のコンテキスト理解が強化される。シミュレーションおよび実世界のタスクプランニングシナリオをまたいで実験を行い、長期ホリゾン状態追跡と推論を必要とする様々なタスクにおいて、ベースラインメソッドよりも大きな改善を示す。

関連論文リスト

MapAgent: Trajectory-Constructed Memory-Augmented Planning for Mobile Task Automation [5.433829353194621]
MapAgentは、過去のトラジェクトリから構築されたメモリを活用して、現在のタスク計画を強化するフレームワークである。本稿では,メモリデータベースから関連ページを類似性に基づいて検索するタスクプランニング手法を提案する。実世界のシナリオにおける結果は、MapAgentが既存のメソッドよりも優れたパフォーマンスを実現していることを示している。
論文参考訳（メタデータ） (2025-07-29T16:05:32Z)
Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [83.21177515180564]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文参考訳（メタデータ） (2025-05-22T09:08:47Z)
Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback [12.600525101342026]
本稿では,言語条件のロングホライズンロボット操作のためのデータに依存しないフレームワークであるDAHLIAを紹介する。 LLMは、リアルタイムタスク計画と実行のための大きな言語モデルである。本フレームワークは,多種多様な長期タスクにおける最先端性能を実証し,シミュレーションおよび実世界のシナリオにおいて強力な一般化を実現する。
論文参考訳（メタデータ） (2025-03-27T20:32:58Z)
SPOC: Spatially-Progressing Object State Change Segmentation in Video [52.65373395382122]
本稿では,空間的に進行するオブジェクト状態変化セグメンテーションタスクを紹介する。目標は、アクション可能なオブジェクトと変換されるオブジェクトのピクセルレベルの領域をセグメント化することです。本研究は,ロボットエージェントに役立てるために,活動進行の追跡に有用であることを示す。
論文参考訳（メタデータ） (2025-03-15T01:48:54Z)
ReLEP: A Novel Framework for Real-world Long-horizon Embodied Planning [7.668848364013772]
本稿では,RelePについて紹介する。コアには細調整された大きな視覚言語モデルがあり、プランをスキル機能のシーケンスとして定式化している。 ReLEPは、幅広い日々のタスクをこなし、他の最先端のベースラインメソッドより優れている。
論文参考訳（メタデータ） (2024-09-24T01:47:23Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文参考訳（メタデータ） (2024-06-14T12:52:42Z)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文参考訳（メタデータ） (2024-01-16T14:33:09Z)
Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文参考訳（メタデータ） (2023-10-03T17:59:46Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
EvEntS ReaLM: Event Reasoning of Entity States via Language Models [24.077262847151232]
残念なことに、Large Language Model(LLM)は、オブジェクトの相互作用に関する手続き的な知識を公開しています。特に,本研究の結果は,未確認属性(ドメイン外)や限られたデータしか利用できない場合に特に有用であることが示唆された。
論文参考訳（メタデータ） (2022-11-10T07:48:01Z)
Learning Long-term Visual Dynamics with Region Proposal Interaction Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文参考訳（メタデータ） (2020-08-05T17:48:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。