論文の概要: RescueBench: Can Embodied Agents Save Lives in the Wild ?
- arxiv url: http://arxiv.org/abs/2606.01848v1
- Date: Mon, 01 Jun 2026 07:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.58959
- Title: RescueBench: Can Embodied Agents Save Lives in the Wild ?
- Title(参考訳): RescueBench: Embodied Agents Savve Lives in the Wild?
- Authors: Kui Wu, Beiyu Guo, Hao Chen, ShuHang Xu, Yuling Li, Yongdan Zeng, Zhoujun Li, Yizhou Wang, Fangwei Zhong,
- Abstract要約: RescueBenchは、検索とレスキュー機能のための写真リアリスティックな診断ベンチマークである。
RescueBenchは、探索とメモリ障害が具体化されたメモリ障害を通じてどのように伝播するかを分析することができる。
- 参考スコア(独自算出の注目度): 31.129606162499982
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Search-and-rescue (SAR) requires embodied agents to explore unfamiliar environments under multimodal uncertainty, perform multi-stage interactions, and retrieve spatial memory over long horizons. Existing benchmarks typically evaluate these capabilities in isolation, leaving unclear how failures compound when they must be composed in realistic workflows. We introduce RescueBench, a photo-realistic diagnostic benchmark that instantiates SAR as a four-stage pipeline: multimodal exploration, target rescue, memory-guided return, and final handoff. By combining sequential task composition with stage-level evaluation, RescueBench enables analysis of how exploration and memory failures propagate through embodied rescue workflows. It contains five progressive difficulty levels that vary in environmental complexity, clue ambiguity, and spatial hierarchy, along with an automatic episode generation and annotation pipeline for scalable evaluation and training. We evaluate seven baselines, an oracle reference, and human players, showing that no baselines complete the full task at the greatest difficulty. Stage-level diagnosis identifies autonomous exploration as the dominant failure mode and spatial memory as a second, independent bottleneck, suggesting that these limitations are not resolved by current topological visual-language navigation or map-based methods. Code is available in https://github.com/wukui-muc/RescueBench
- Abstract(参考訳): サーチ・アンド・レスキュー(SAR)は、マルチモーダルな不確実性の下で不慣れな環境を探索し、多段階の相互作用を実行し、長い地平線上で空間記憶を取得するために、エンボディエージェントを必要とする。
既存のベンチマークでは、これらの機能を独立した形で評価することが多い。
RescueBenchは、SARを4段階のパイプラインとして、マルチモーダル探索、ターゲット救助、メモリ誘導リターン、最終的なハンドオフとしてインスタンス化する、フォトリアリスティックな診断ベンチマークである。
シーケンシャルなタスク構成とステージレベルの評価を組み合わせることで、RescueBenchは、具体化された救助ワークフローを通じて、探索とメモリ障害がどのように伝播するかを分析することができる。
環境の複雑さ、手がかりのあいまいさ、空間的階層の5つの段階的な難易度と、スケーラブルな評価とトレーニングのための自動エピソード生成とアノテーションパイプラインを含んでいる。
我々は,7つのベースライン,託宣参照,人間プレイヤーを評価し,どのベースラインも最大の難易度で全タスクを完了させていないことを示す。
ステージレベルの診断は、自律的な探索を支配的な障害モードと認識し、空間記憶を第二の独立したボトルネックとして認識し、これらの制限は現在の位相的視覚言語ナビゲーションやマップベースの手法では解決されないことを示唆している。
コードはhttps://github.com/wukui-muc/RescueBenchで入手できる。
関連論文リスト
- ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue [7.02322027654542]
無人航空機(UAV)は、空間推論、意味理解、複雑な意思決定において例外的な能力を持つ。
既存のUAV検索・救助研究は、従来のビジョンと経路計画手法が支配している。
本研究では,航空エージェントが複雑な環境を自律的に探索するために必要な新しいタスクである textbfEmbodied Search and Rescue (ESAR) を提案する。
MLLM駆動型UAVエージェントを高現実的なSARシナリオで評価するために設計された,最初の総合ベンチマークである textbfESARBench を提示する。
論文 参考訳(メタデータ) (2026-05-02T10:30:42Z) - Springdrift: An Auditable Persistent Runtime for LLM Agents with Case-Based Memory, Normative Safety, and Ambient Self-Perception [0.20305676256390928]
本稿では、長期LLMエージェントの永続ランタイムであるSpringdriftを紹介する。
我々は,このカテゴリに人工リテーナという用語を導入する。
これは、システム設計とデプロイメントのケーススタディに関する技術的なレポートであり、ベンチマークによる評価ではない。
論文 参考訳(メタデータ) (2026-04-06T13:14:37Z) - SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - C$^2$-Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration [9.118945533198369]
限られたコミュニケーション下での効率的な多時期探索は、不適切なタスク表現とアロケーションによって著しくボトルネックとなる。
C$2$-Explorerは、非接続未知のコンポーネントを独立したタスクユニットに分解する接続グラフを構築する分散フレームワークである。
C$2$-Explorerは、最先端(SOTA)ベースラインを一貫して上回り、平均探査時間を43.1%削減し、経路長を33.3%短縮することを示した。
論文 参考訳(メタデータ) (2026-03-08T15:54:33Z) - A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives [0.0]
PANGAEA-GPTは、自律的なデータ発見と分析のために設計された階層型マルチエージェントフレームワークである。
標準のLarge Language Model (LLM)ラッパーとは異なり、我々のアーキテクチャは集中型スーパーバイザ-ワーバートポロジを実装している。
人間の介入を最小限に抑えながら、複雑な多段階決定論的ランタイムを実行するシステムの能力を実証する。
論文 参考訳(メタデータ) (2026-02-24T20:37:38Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - A Benchmark for Procedural Memory Retrieval in Language Agents [0.023227405857540805]
現在のAIエージェントは、慣れ親しんだ設定で優れていますが、目に見えないProcで新しいタスクに直面したとき、急激に失敗します。
タスク実行から手続き的メモリ検索を分離する最初のベンチマークを示す。
埋め込み型手法は、慣れ親しんだ文脈で強く機能するが、新規な手法では著しく劣化する。
論文 参考訳(メタデータ) (2025-11-21T08:08:53Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。