論文の概要: WildRoadBench: A Wild Aerial Road-Damage Grounding Benchmark for Vision-Language Models and Autonomous Agents
- arxiv url: http://arxiv.org/abs/2605.20306v1
- Date: Tue, 19 May 2026 15:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.288073
- Title: WildRoadBench: A Wild Aerial Road-Damage Grounding Benchmark for Vision-Language Models and Autonomous Agents
- Title(参考訳): WildRoadBench:ビジョンランゲージモデルと自律エージェントのためのワイルドエアリアルロードダマージグラウンドベンチマーク
- Authors: Bingnan Liu, Chenhang Cui, Rui Huang, Jiani Luo, Zhirong Shen, Tinghao Wang, Xiande Huang, Lingbei Meng, Fei Shen, An Zhang,
- Abstract要約: WildRoadBenchを紹介します。
視覚フィードバックモデルによる直接的な視覚的接地と、LCM駆動エージェントによる自律的な研究とエンジニアリングを結合する。
我々は、複数のフロンティアLPM駆動エージェントとともに、クローズドソースフロンティアモデルとオープンソースVLMの広範なプールをベンチマークする。
- 参考スコア(独自算出の注目度): 18.115492558482995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WildRoadBench, a wild aerial road-damage grounding benchmark that couples direct visual grounding by vision-language models with autonomous research-and-engineering by LLM-driven agents on a single professionally annotated UAV corpus. The same image set and the same per-class AP_50 metric are evaluated under two protocols. The VLM Track measures whether a fixed VLM can localise domain-specific damage from one image and one short prompt under a unified prompting, decoding and parsing pipeline. The Agent Track measures whether an autonomous agent, given only a written task brief, a small exploratory slice and a fixed interaction budget, can search the public web, adapt pretrained components, write training and inference code, and submit predictions through a scalar-feedback oracle on a hidden holdout. We benchmark a broad pool of closed-source frontier models and open-source VLMs together with several frontier LLM-driven agents. Both routes remain far from reliable performance in this wild setting: closed-source frontier models lead the VLM leaderboard but still leave more than half of the metric on the table; open-source grounders plateau well below them, and newer generations or reasoning-style variants do not consistently improve grounding; small targets collapse for every open-source model; agents lag the strongest VLM despite richer affordances, and several fail to land a valid submission within the budget. We release the code and data at https://anonymous.4open.science/r/wildroadbench-0607 to support reproducible follow-up research.
- Abstract(参考訳): WildRoadBenchは、視覚言語モデルによる直接視覚的グラウンドディングと、LDM駆動エージェントによる自律的な研究とエンジニアリングを、プロの注釈付きUAVコーパスで組み合わせた、野生の空中道路損傷グラウンドベンチマークである。
同じ画像セットとクラス毎のAP_50メートル法を2つのプロトコルで評価する。
VLMトラックは、固定されたVLMが1つの画像と1つの短いプロンプトからドメイン固有の損傷を、統一されたプロンプト、デコード、解析パイプラインの下でローカライズできるかどうかを測定する。
エージェント追跡は、手書きのタスクブリーフィング、小さな探索スライス、固定されたインタラクション予算のみを与えられた自律エージェントが、パブリックウェブを検索し、事前訓練されたコンポーネントを適応し、トレーニングと推論コードを書き、隠れたホールドアウトでスカラーフィードバックのオラクルを通じて予測を送信できるかどうかを測定する。
我々は、複数のフロンティアLPM駆動エージェントとともに、クローズドソースフロンティアモデルとオープンソースVLMの広範なプールをベンチマークする。
クローズド・ソース・フロンティア・モデル(英語版)はVLMリーダーボード(英語版)をリードするが、いまだに指標の半分以上をテーブルに残し、オープンソース・グライダー・プレート(英語版)はそれよりずっと低い位置にあり、新しい世代や推論スタイルの変種(英語版)はグラウンディングを継続的に改善しない。
再現可能なフォローアップリサーチをサポートするため、コードとデータをhttps://anonymous.4open.science/r/wildroadbench-0607でリリースします。
関連論文リスト
- OneDrive: Unified Multi-Paradigm Driving with Vision-Language-Action Models [69.2503510410147]
予め訓練されたVLM上に構築した統合自動運転フレームワークを提案する。
トレーニング済みのVLMアテンションは、純粋言語モデリング以上の強い伝達性を示すことを示す。
エンドツーエンドの自動運転ベンチマークの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-04-20T07:50:00Z) - Adaptive Vision-Language Model Routing for Computer Use Agents [9.457255218406333]
コンピュータ利用エージェントは、命令をクリック、キーストローク、スクロールなどのアクションに変換する。
現在のCUAシステムは、通常、困難にかかわらず全てのアクションを単一の固定モデルにルーティングする。
本稿では,CUAオーケストレータとVLMプール間の軽量なセマンティックルーティング層を挿入するフレームワークであるConfusedbf VLM Routing (AVR)を提案する。
論文 参考訳(メタデータ) (2026-03-13T09:21:25Z) - OSM-based Domain Adaptation for Remote Sensing VLMs [49.91326341200221]
リモートセンシングに適応した視覚言語モデル(VLM)は、ドメイン固有の画像テキストの監視に大きく依存する。
我々は、この依存関係を排除した自己完結型ドメイン適応フレームワークOSMDAを提案する。
画像テキストからテキストまでのタスクで10のベンチマークを網羅的に評価する。
論文 参考訳(メタデータ) (2026-03-12T11:08:30Z) - $α^3$-Bench: A Unified Benchmark of Safety, Robustness, and Efficiency for LLM-Based UAV Agents over 6G Networks [3.099103925863002]
3ドルベンチは無人航空機の自律性を評価するためのベンチマークである。
各ミッションは、LLMベースのUAVエージェントと人間のオペレータ間の言語経由の制御ループとして定式化される。
UAVBenchシナリオに基づく113kの会話型UAVエピソードの大規模コーパスを構築した。
本稿では,タスクアウトカム,安全ポリシ,ツール一貫性,インタラクション品質,ネットワークロバストネス,通信コストの6つの柱を統合した3ドルの複合指標を提案する。
論文 参考訳(メタデータ) (2026-01-01T12:07:06Z) - AutoMLGen: Navigating Fine-Grained Optimization for Coding Agents [27.864519204078004]
大規模言語モデル(LLM)は、一般的なプログラミングタスクにおいて印象的なパフォーマンスを示している。
我々は、高品質な事前ガイダンスのためのドメイン知識ベースを統合するLLMベースのコーディングエージェントであるAutoMLGenを紹介する。
以上の結果から,AutoMLGenは平均メダル率や有効な応募率など,数多くの分野で最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-09T17:45:05Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。