論文の概要: Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning
- arxiv url: http://arxiv.org/abs/2505.16928v1
- Date: Thu, 22 May 2025 17:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.492179
- Title: Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning
- Title(参考訳): エンボディード・ヘイスタックにおけるニードルを超えて--長期的文脈推論のための環境・建築・訓練的考察
- Authors: Bosung Kim, Prithviraj Ammanabrolu,
- Abstract要約: $infty$-THORは、エンボディドAIにおける長期コンテキスト理解を促進する、長期的なエンボディドタスクのための新しいフレームワークである。
a new embodied QA task, Needle(s) in the Embodied Haystack, (3) long-horizon dataset and benchmark suite。
- 参考スコア(独自算出の注目度): 17.46846684309542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce $\infty$-THOR, a new framework for long-horizon embodied tasks that advances long-context understanding in embodied AI. $\infty$-THOR provides: (1) a generation framework for synthesizing scalable, reproducible, and unlimited long-horizon trajectories; (2) a novel embodied QA task, Needle(s) in the Embodied Haystack, where multiple scattered clues across extended trajectories test agents' long-context reasoning ability; and (3) a long-horizon dataset and benchmark suite featuring complex tasks that span hundreds of environment steps, each paired with ground-truth action sequences. To enable this capability, we explore architectural adaptations, including interleaved Goal-State-Action modeling, context extension techniques, and Context Parallelism, to equip LLM-based agents for extreme long-context reasoning and interaction. Experimental results and analyses highlight the challenges posed by our benchmark and provide insights into training strategies and model behaviors under long-horizon conditions. Our work provides a foundation for the next generation of embodied AI systems capable of robust, long-term reasoning and planning.
- Abstract(参考訳): エンボディドAIにおける長文理解を促進させる長文エンボディドタスクのための新しいフレームワークである$\infty$-THORを導入する。
1)スケーラブルで再現性があり、無制限なロングホライゾン軌道を合成する生成フレームワーク、(2)エボダイド・ヘイスタックにおける新しいQAタスクであるニードル(s)は、テストエージェントのロングコンテクスト推論能力にまたがる複数の散在するヒントを抽出し、(3)数百の環境ステップにまたがる複雑なタスクをそれぞれペアリングするロングホライゾンデータセットとベンチマークスイートである。
この機能を実現するために、極端に長いコンテキストの推論と相互作用のためにLLMベースのエージェントを装備するために、ゴール・ステート・アクション・モデリング、コンテキスト拡張手法、コンテキスト並列性などのアーキテクチャ適応について検討する。
実験結果と分析の結果は,我々のベンチマークがもたらす課題を浮き彫りにし,長い水平条件下でのトレーニング戦略とモデル行動に関する洞察を提供する。
私たちの研究は、堅牢で長期的な推論と計画が可能な次世代AIシステムの基盤を提供します。
関連論文リスト
- UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。
我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。
また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文 参考訳(メタデータ) (2025-03-26T17:33:23Z) - Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision [40.63870977649693]
Chain-of-Thoughtプロンプトは、多段階推論を約束するが、長文シナリオの有効性は未検討のままである。
本稿では,LongRePSを提案する。LongRePSは,長いコンテキスト性能を向上させるための高品質な推論経路をモデルに教えるフレームワークである。
本フレームワークには,推論パスをブートストラップする自己サンプリング機構と,長期シナリオ用に設計された新しい品質評価プロトコルが組み込まれている。
論文 参考訳(メタデータ) (2025-02-28T07:15:12Z) - Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method [94.74003109176581]
Long-Horizon Vision-Language Navigation (LH-VLN)は、連続したサブタスク間の長期計画と意思決定の一貫性を強調する新しいVLNタスクである。
我々のプラットフォーム、ベンチマーク、メソッドは、ロバストなデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給する。
論文 参考訳(メタデータ) (2024-12-12T09:08:13Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - Long-horizon Embodied Planning with Implicit Logical Inference and Hallucination Mitigation [7.668848364013772]
本稿では,RelePについて紹介する。
ReLEPは、微調整を通じて暗黙的な論理的推論を学習することで、コンテキスト内の例を使わずに、幅広い長距離タスクを完了することができる。
論文 参考訳(メタデータ) (2024-09-24T01:47:23Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。