論文の概要: When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution
- arxiv url: http://arxiv.org/abs/2605.14504v2
- Date: Sat, 16 May 2026 18:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.001798
- Title: When Robots Do the Chores: A Benchmark and Agent for Long-Horizon Household Task Execution
- Title(参考訳): ロボットが買い物をするとき--長距離家庭におけるタスク実行のベンチマークとエージェント-
- Authors: Zilin Zhu, Longteng Guo, Yanghong Mei, Bowen Pang, Zongxun Zhang, Xingjian He, Ruyi Ji, Jing Liu,
- Abstract要約: LongActは、長期住宅業務における計画レベルの自律性を評価するために設計されたベンチマークである。
HoloMindは、DAGベースの長距離階層型プランナーを備えたVLM駆動のエージェントである。
- 参考スコア(独自算出の注目度): 17.020655152761346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon household tasks demand robust high-level planning and sustained reasoning capabilities, which are largely overlooked by existing embodied AI benchmarks that emphasize short-horizon navigation or manipulation and rely on fixed task categories. We introduce LongAct, a benchmark designed to evaluate planning-level autonomy in long-horizon household tasks specified through free-form instructions. By abstracting away embodiment-specific low-level control, LongAct isolates high-level cognitive capabilities such as instruction understanding, dependency management, memory maintenance, and adaptive planning. We further propose HoloMind, a VLM-driven agent with a DAG-based long-horizon hierarchical planner, a Multimodal Spatial Memory for persistent world modeling, an Episodic Memory for experience reuse, and a global Critic for reflective supervision. Experiments with GPT-5 and Qwen3-VL models show that HoloMind substantially improves long-horizon performance while reducing reliance on model scale. Even top models achieve only 59% goal completion and 16% full-task success, underscoring the difficulty of LongAct and the need for stronger long-horizon planning in embodied agents.
- Abstract(参考訳): ロングホライゾンの家庭用タスクは、堅牢な高レベルの計画と持続的な推論能力を必要としており、これは、短期ホライゾンナビゲーションや操作を重視し、固定されたタスクカテゴリに依存している既存のAIベンチマークによってほとんど見過ごされている。
自由形式の指示によって指定された長軸の家庭用タスクにおける計画レベルの自律性を評価するためのベンチマークであるLongActを紹介する。
エンボディメント固有の低レベル制御を抽象化することにより、LongActは命令理解、依存性管理、メモリメンテナンス、適応計画などの高レベル認知機能を分離する。
さらに,DAGに基づく長距離階層型プランナを備えたVLMエージェントであるHoloMind,永続的世界モデリングのためのマルチモーダル空間メモリ,体験再利用のためのエピソードメモリ,反射的監視のためのグローバルクリティカルを提案する。
GPT-5 と Qwen3-VL モデルによる実験により,HoloMind はモデルスケールへの依存を低減しつつ,長期化性能を大幅に向上することが示された。
トップモデルでさえ目標達成の59%、フルタスク成功の16%しか達成できず、LongActの難しさとエンボディエージェントによるより強力なロングホライゾン計画の必要性を強調している。
関連論文リスト
- Long-Horizon Manipulation via Trace-Conditioned VLA Planning [55.80061850746898]
LoHo-Manipは、短い水平VLA実行を専用のタスク管理VLMを介して長い水平命令にスケールするフレームワークである。
LoHo-Manipは、サブタスクシーケンスと明示的な完了+残り分割を軽量言語メモリとして組み合わせた、進捗対応の残計画を予測する。
実行器VLAは、レンダリングされたトレースの条件に適合し、長い水平決定を繰り返しローカル制御に変換する。
論文 参考訳(メタデータ) (2026-04-23T17:59:04Z) - The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break [69.91172974854422]
HORIZONは、大規模言語モデル(LLM)エージェントの長期障害挙動を解析するためのクロスドメイン診断ベンチマークである。
我々は,複数のモデルファミリーのSOTA(State-of-the-art)エージェントを評価し,水平方向依存劣化パターンについて検討した。
本研究は, 長期薬物障害の系統的, クロスドメイン解析への最初の方法論的ステップを提供する。
論文 参考訳(メタデータ) (2026-04-13T19:11:42Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks [31.3295171851909]
実世界のエンボディエージェントは、マルチステップソリューションを必要とするハイレベルな目標に直面します。
ロングホライゾンタスクは、ハイレベルなタスクプランニングと低レベルなモーションコントロールを必要とする。
我々は,LoHoVLAと呼ばれる長期タスクのための統合視覚言語フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-31T06:01:03Z) - Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation [7.668848364013772]
本稿では,RelePについて紹介する。
ReLEPは、微調整を通じて暗黙的な論理的推論を学習することで、コンテキスト内の例を使わずに、幅広い長距離タスクを完了することができる。
論文 参考訳(メタデータ) (2024-09-24T01:47:23Z) - PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer [47.924941959320996]
我々はPlanDQと呼ばれるオフラインRL用に設計された階層型プランナを提案する。
PlanDQはD-Conductorという名前の拡散型プランナーを高レベルに組み込んでおり、サブゴールを通じて低レベル政策を導く。
低レベルでは、これらのサブゴールを達成するためにQ-Performerと呼ばれるQ-ラーニングベースのアプローチを使用しました。
論文 参考訳(メタデータ) (2024-06-10T20:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。