論文の概要: FindingDory: A Benchmark to Evaluate Memory in Embodied Agents
- arxiv url: http://arxiv.org/abs/2506.15635v1
- Date: Wed, 18 Jun 2025 17:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.751387
- Title: FindingDory: A Benchmark to Evaluate Memory in Embodied Agents
- Title(参考訳): FindingDory: エージェントのメモリ評価ベンチマーク
- Authors: Karmesh Yadav, Yusuf Ali, Gunshi Gupta, Yarin Gal, Zsolt Kira,
- Abstract要約: 本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
- 参考スコア(独自算出の注目度): 49.89792845476579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models have recently demonstrated impressive performance in planning and control tasks, driving interest in their application to real-world robotics. However, deploying these models for reasoning in embodied contexts is limited by their ability to incorporate long-term experience collected across multiple days and represented by vast collections of images. Current VLMs typically struggle to process more than a few hundred images concurrently, highlighting the need for more efficient mechanisms to handle long-term memory in embodied settings. To effectively evaluate these models for long-horizon control, a benchmark must specifically target scenarios where memory is crucial for success. Existing long-video QA benchmarks overlook embodied challenges like object manipulation and navigation, which demand low-level skills and fine-grained reasoning over past interactions. Moreover, effective memory integration in embodied agents involves both recalling relevant historical information and executing actions based on that information, making it essential to study these aspects together rather than in isolation. In this work, we introduce a new benchmark for long-range embodied tasks in the Habitat simulator. This benchmark evaluates memory-based capabilities across 60 tasks requiring sustained engagement and contextual awareness in an environment. The tasks can also be procedurally extended to longer and more challenging versions, enabling scalable evaluation of memory and reasoning. We also present baselines that integrate state-of-the-art VLMs with low level navigation policies, assessing their performance on these memory-intensive tasks and highlight areas for improvement.
- Abstract(参考訳): 大規模な視覚言語モデルは、最近、計画と制御タスクにおいて印象的なパフォーマンスを示し、現実のロボット工学への関心を喚起している。
しかし、これらのモデルを具体的文脈で推論するためにデプロイすることは、複数の日にわたって収集され、膨大な画像の集合によって表される長期的な経験を組み込む能力によって制限される。
現在のVLMは数百以上の画像を同時に処理するのに苦労しており、エンボディされた設定で長期記憶を扱うためのより効率的なメカニズムの必要性を強調している。
長期制御のためにこれらのモデルを効果的に評価するには、ベンチマークは、メモリが成功に不可欠であるシナリオを特にターゲットにする必要がある。
既存のビデオQAベンチマークは、オブジェクト操作やナビゲーションといった、過去のインタラクションよりも低いレベルのスキルときめ細かい推論を必要とする課題を克服したものだ。
さらに、具体化エージェントの効果的なメモリ統合には、関連する履歴情報をリコールすることと、その情報に基づいてアクションを実行することの両方が関係しており、分離ではなく、これらの側面を一緒に研究することが不可欠である。
本研究では,Habitatシミュレータの長距離エンボディタスクに対する新しいベンチマークを提案する。
このベンチマークは、環境における持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
タスクは手続き的に、より長く、より困難なバージョンに拡張することができ、メモリと推論のスケーラブルな評価を可能にします。
我々はまた、最先端のVLMと低レベルのナビゲーションポリシーを統合し、これらのメモリ集約タスクの性能を評価し、改善すべき領域を強調するベースラインも提示する。
関連論文リスト
- RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [80.20970723577818]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Minerva: A Programmable Memory Test Benchmark for Language Models [18.474144165594225]
本稿では、モデルがメモリを効果的に活用できる能力を評価するために、包括的なテストを自動的に生成するフレームワークを提案する。
我々は、検索、リコール、編集、マッチング、文脈記憶における情報の比較といったアトミックなタスクのモデルを評価する。
また、より複雑で統合されたタスクを実行するモデルの能力を調べるために、複合テストも設計する。
論文 参考訳(メタデータ) (2025-02-05T16:53:45Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Self-Updatable Large Language Models by Integrating Context into Model Parameters [21.742149718161716]
周囲のオブジェクトとのインタラクションのような小規模なエクスペリエンスは、大規模な言語モデルに頻繁に統合する必要があります。
現在の手法では、連続学習、モデル編集、知識蒸留技術を用いてモデルパラメータに経験を組み込む。
モデルパラメータに直接経験を組み込むSELF-PARAMを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:18:17Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Learning to Actively Reduce Memory Requirements for Robot Control Tasks [4.302265156822829]
ロボットを制御するための最先端のアプローチは、しばしばタスクに過剰にリッチなメモリ表現を使用するか、手作りのトリックをメモリ効率に頼っている。
この研究は、メモリ表現とポリシーを共同で合成するための一般的なアプローチを提供する。
論文 参考訳(メタデータ) (2020-08-17T16:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。