論文の概要: BridgeEQA: Virtual Embodied Agents for Real Bridge Inspections
- arxiv url: http://arxiv.org/abs/2511.12676v1
- Date: Sun, 16 Nov 2025 16:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.440166
- Title: BridgeEQA: Virtual Embodied Agents for Real Bridge Inspections
- Title(参考訳): BridgeEQA: リアルブリッジ検査のための仮想身体エージェント
- Authors: Subin Varghese, Joshua Gao, Asad Ur Rahman, Vedhus Hoskere,
- Abstract要約: BridgeEQAは、専門家の検査報告書に基づいた2,200のオープン語彙の質問応答ペアのベンチマークである。
画像ベースのシーングラフ上での逐次ナビゲーションとしてインスペクションを定式化するEmbodied Memory Visual Reasoning (EMVR)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying embodied agents that can answer questions about their surroundings in realistic real-world settings remains difficult, partly due to the scarcity of benchmarks that faithfully capture practical operating conditions. We propose infrastructure inspection as a compelling domain for open-vocabulary Embodied Question Answering (EQA): it naturally demands multi-scale reasoning, long-range spatial understanding, and complex semantic relationships, while offering unique evaluation advantages via standardized National Bridge Inventory (NBI) condition ratings (0-9), professional inspection reports, and egocentric imagery. We introduce BridgeEQA, a benchmark of 2,200 open-vocabulary question-answer pairs (in the style of OpenEQA) grounded in professional inspection reports across 200 real-world bridge scenes with 47.93 images on average per scene. Questions require synthesizing visual evidence across multiple images and aligning responses with NBI condition ratings. We further propose a new EQA metric Image Citation Relevance to evaluate the ability of a model to cite relevant images. Evaluations of state-of-the-art vision-language models reveal substantial performance gaps under episodic memory EQA settings. To address this, we propose Embodied Memory Visual Reasoning (EMVR), which formulates inspection as sequential navigation over an image-based scene graph: images are nodes, and an agent takes actions to traverse views, compare evidence, and reason within a Markov decision process. EMVR shows strong performance over the baselines. We publicly release both the dataset and code.
- Abstract(参考訳): 実世界の現実的な環境で、環境に関する質問に答えられる実施エージェントの配置は、実際的な運用条件を忠実に捉えるベンチマークが不足していることもあって、依然として困難である。
オープンボキャブラリEmbodied Question Answering (EQA) のための説得力のあるドメインとしてインフラ検査を提案する。これは自然にマルチスケールの推論、長距離空間理解、複雑な意味的関係を必要とする一方で、標準化されたNational Bridge Inventory (NBI) 条件評価 (0-9) 、専門的な検査報告、エゴセントリックなイメージによって独自の評価の利点を提供する。
我々は,200の現実世界のブリッジシーンに,平均47.93イメージのプロの検査レポートをベースとした2,200のオープンボキャブラリ質問応答ペア(OpenEQAのスタイル)のベンチマークであるBridgeEQAを紹介する。
問題は、複数の画像にまたがって視覚的証拠を合成し、NBI条件のレーティングと応答を一致させることである。
さらに,モデルが関連画像を引用する能力を評価するために,新しいEQAメトリック画像クエンテーション関連手法を提案する。
最先端の視覚言語モデルの評価は、エピソードメモリEQA設定下での大幅な性能差を示す。
画像はノードであり、エージェントはビューを横切り、エビデンスを比較し、マルコフ決定プロセス内で理性を示す。
EMVRはベースラインよりも高いパフォーマンスを示している。
データセットとコードの両方を公開しています。
関連論文リスト
- UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - Describe Anything Model for Visual Question Answering on Text-rich Images [7.618388911738171]
DAMの領域認識機能を利用するフレームワークであるDAM-QAを,テキストリッチな視覚質問応答問題に適用する。
我々のアプローチは、DocVQAで注目すべき7以上のポイントゲインで、ベースラインDAMを一貫して上回ります。
その結果、効率的な使用法と統合戦略を組み合わせれば、テキストリッチで広範なVQAタスクのためのDAMライクなモデルの可能性が浮き彫りになる。
論文 参考訳(メタデータ) (2025-07-16T17:28:19Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection [24.67072921674199]
説明可能なマルチモーダルAIGC検出のための,新規で統一された大規模データセットであるIVY-FAKEを紹介する。
Ivy Explainable Detector (IVY-XDETECTOR)を提案する。
我々の統合視覚言語モデルは、複数の画像およびビデオ検出ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-01T12:20:22Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Evaluating Tool-Augmented Agents in Remote Sensing Platforms [1.8434042562191815]
既存のベンチマークでは、事前に定義された画像とテキストのデータペアに対して質問応答の入力テンプレートを仮定する。
実際のUIプラットフォーム上で,言語,視覚,クリックベースのアクションの長いシーケンスをキャプチャするベンチマークであるGeoLLM-QAを提案する。
論文 参考訳(メタデータ) (2024-04-23T20:37:24Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。