論文の概要: AMIGO: Agentic Multi-Image Grounding Oracle Benchmark
- arxiv url: http://arxiv.org/abs/2603.28662v1
- Date: Mon, 30 Mar 2026 16:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.517809
- Title: AMIGO: Agentic Multi-Image Grounding Oracle Benchmark
- Title(参考訳): AMIGO: エージェントによるマルチイメージのグラウンディング Oracle Benchmark
- Authors: Min Wang, Ata Mahjoubfar,
- Abstract要約: 視覚的に類似した画像のギャラリー上での隠れターゲット識別のためのベンチマークであるAMIGOを紹介する。
AMIGOでは、オラクルがターゲットイメージをプライベートに選択し、属性中心のYes/No/Unsure質問のシーケンスを問うことによってモデルを復元する必要がある。
Guess My Preferred DressタスクでAMIGOをインスタンス化し、結果とインタラクション品質の両方をカバーするメトリクスを報告します。
- 参考スコア(独自算出の注目度): 4.3535756447833895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic vision-language models increasingly act through extended interactions, but most evaluations still focus on single-image, single-turn correctness. We introduce AMIGO (Agentic Multi-Image Grounding Oracle Benchmark), a long-horizon benchmark for hidden-target identification over galleries of visually similar images. In AMIGO, the oracle privately selects a target image, and the model must recover it by asking a sequence of attribute-focused Yes/No/Unsure questions under a strict protocol that penalizes invalid actions with Skip. This setting stresses (i) question selection under uncertainty, (ii) consistent constraint tracking across turns, and (iii) fine-grained discrimination as evidence accumulates. AMIGO also supports controlled oracle imperfections to probe robustness and verification behavior under inconsistent feedback. We instantiate AMIGO with Guess My Preferred Dress task and report metrics covering both outcomes and interaction quality, including identification success, evidence verification, efficiency, protocol compliance, noise tolerance, and trajectory-level diagnostics.
- Abstract(参考訳): エージェント視覚言語モデルは、ますます拡張された相互作用を通して作用するが、ほとんどの評価は、依然としてシングルイメージ、シングルターンの正しさに焦点を当てている。
我々はAMIGO(Agentic Multi- Image Grounding Oracle Benchmark)を紹介した。
AMIGOでは、オラクルがターゲットイメージをプライベートに選択し、Skipで不正なアクションをペナルティ化する厳格なプロトコルの下で属性中心のYes/No/Unsure質問のシーケンスを問うことによって、モデルを復元しなければならない。
この設定ストレス
(i)不確実性の下での質問選択
(二 ターンをまたいだ一貫した制約追跡、及び
三 証拠の蓄積によるきめ細かい識別
AMIGOはまた、一貫性のないフィードバックの下で堅牢性や検証行動を調査するための制御されたオラクルの欠陥もサポートしている。
AMIGOをGuess My Preferred Dressタスクでインスタンス化し、識別成功、エビデンス検証、効率性、プロトコルコンプライアンス、耐雑音性、軌道レベルの診断など、結果と相互作用品質の両方をカバーするメトリクスを報告します。
関連論文リスト
- Relative Classification Accuracy: A Calibrated Metric for Identity Consistency in Fine-Grained K-pop Face Generation [0.0]
Denoising Diffusion Probabilistic Models (DDPM) は高忠実度画像生成において顕著な成功を収めた。
FID や Inception Score (IS) のような標準メトリクスは、そのような特殊なコンテキストにおけるアイデンティティの不一致を検出するのに失敗することが多い。
K-pop idol face generation (32x32) のクラス・コンディショナルDDPMについて検討した。
論文 参考訳(メタデータ) (2026-01-22T00:58:59Z) - More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment [105.31858867473845]
ImageCriticはエージェントフレームワークに統合され、不整合を自動的に検出し、マルチラウンドおよびローカル編集で修正する。
実験では、ImageCriticは様々なカスタマイズされた生成シナリオで詳細に関連する問題を効果的に解決することができ、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-25T18:40:25Z) - Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios [76.02688769599686]
本稿では,AIRMVCと呼ばれるノイズデータの自動識別と修正のための新しいマルチビュークラスタリングフレームワークを提案する。
具体的には,GMMを用いて雑音識別を異常識別問題として再構成する。
次に,同定結果に基づいて,ノイズデータの悪影響を軽減するためのハイブリッド補正戦略を設計する。
論文 参考訳(メタデータ) (2025-05-27T16:16:54Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - ALWOD: Active Learning for Weakly-Supervised Object Detection [14.063031246614488]
我々は、弱い、半教師付きオブジェクト検出パラダイムでアクティブな学習を融合させる新しいフレームワークALWODを提案する。
ALWODは、一部のラベル付きだが戦略的に選択された画像インスタンスで訓練されたODと、完全にラベル付けされたデータに依存するODとのギャップを著しく狭めることを示した。
論文 参考訳(メタデータ) (2023-09-14T17:59:05Z) - Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object
Tracking [38.36872739816151]
検出器内のOAA(Occlusion-Aware Attention)モジュールは、隠蔽された背景領域を抑えながらオブジェクトの特徴を強調する。
OAAは、隠蔽される可能性のある物体の検出器を強化する変調器として機能する。
最適輸送問題に基づくRe-ID埋め込みマッチングブロックを設計する。
論文 参考訳(メタデータ) (2023-08-30T06:56:53Z) - SIOD: Single Instance Annotated Per Category Per Image for Object
Detection [67.64774488115299]
画像内の既存のカテゴリ毎に1つのインスタンスアノテーションのみを必要とする単一インスタンスアノテーションオブジェクト検出(SIOD)を提案する。
WSOD(Inter-task)やSSOD(Inter-image)の相違点からイメージ内の相違点に分解されたSIODは、ラベルなしインスタンスの残りをマイニングする上で、より信頼性が高く豊富な事前知識を提供する。
SIOD設定下では、類似性に基づく擬似ラベル生成モジュール(SPLG)と、Pixelレベルのグループコントラスト学習モジュール(PGCL)からなる、シンプルで効果的なフレームワークであるDual-Mining(DMiner)を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。