Fugu-MT 論文翻訳(概要): Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models

論文の概要: Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models

arxiv url: http://arxiv.org/abs/2604.08456v1
Date: Thu, 09 Apr 2026 16:51:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:06.032718
Title: Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models
Title（参考訳）: エントロピー勾配グラウンドリング:視覚言語モデルにおける学習自由証拠検索
Authors: Marcel Gröpl, Jaewoo Jung, Seungryong Kim, Marc Pollefeys, Sunghwan Hong,
Abstract要約: 視覚言語モデルのための学習不要なモデル固有のグラウンドリング手法を提案する。モデルの次トーケン分布のエントロピーを計算し、それを視覚トークン埋め込みにバックプロパタイズしてエントロピー勾配のレバレンスマップを得る。次に、複数のコヒーレント領域を抽出・ランク付けし、マルチエビデンスクエリをサポートし、空間エントロピー停止規則付き反復的なズーム・アンド・リグラウンド手順を導入する。
参考スコア（独自算出の注目度）: 77.3748853516374
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite rapid progress, pretrained vision-language models still struggle when answers depend on tiny visual details or on combining clues spread across multiple regions, as in documents and compositional queries. We address this by framing grounding as test-time evidence retrieval: given a query, the model should actively identify where to look next to resolve ambiguity. To this end, we propose a training-free, model-intrinsic grounding method that uses uncertainty as supervision. Specifically, we compute the entropy of the model's next-token distribution and backpropagate it to the visual token embeddings to obtain an entropy-gradient relevance map, without auxiliary detectors or attention-map heuristics. We then extract and rank multiple coherent regions to support multi-evidence queries, and introduce an iterative zoom-and-reground procedure with a spatial-entropy stopping rule to avoid over-refinement. Experiments on seven benchmarks across four VLM architectures demonstrate consistent improvements over existing methods, with the largest gains on detail-critical and high-resolution settings, while also producing more interpretable evidence localizations.
Abstract（参考訳）: 急速な進歩にもかかわらず、事前訓練された視覚言語モデルは、答えが小さな視覚的詳細に依存する場合や、文書や構成的なクエリのように、複数の領域にまたがるヒントの組み合わせに苦慮している。クエリが与えられたら、モデルはあいまいさを解決するために次に見る場所を積極的に特定する必要があります。そこで本研究では,不確実性を監視対象とするトレーニングフリーなモデル内在的接地手法を提案する。具体的には、モデルの次トーケン分布のエントロピーを計算し、それを視覚トークン埋め込みにバックプロパタイズして、補助検出器やアテンションマップヒューリスティックを使わずにエントロピー勾配のレバレンスマップを得る。次に、複数のコヒーレント領域を抽出・ランク付けし、マルチエビデンスクエリをサポートし、空間エントロピー停止規則付き反復的なズーム・アンド・リグラウンド手順を導入し、オーバーリファイン化を避ける。 4つのVLMアーキテクチャにまたがる7つのベンチマークの実験では、既存の手法よりも一貫した改善が示されている。

関連論文リスト

SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained Spatial Consistency in Text-to-Image Generation [62.55421542903781]
生成された画像の空間的レイアウトを評価するために明示的に設計された検証可能な報酬モデルである textbfSpatialReward を提案する。安定拡散とFLUXの実験により、空間的リワードをRLトレーニングに組み込むことで、空間的一貫性と全体的な生成品質が一貫して向上することが示された。
論文参考訳（メタデータ） (2026-03-23T17:26:35Z)
VIEW2SPACE: Studying Multi-View Visual Reasoning from Sparse Observations [47.94531550391802]
多視点視覚推論は、スパースと離散的な視点から複雑な環境を理解する必要があるインテリジェントシステムにとって不可欠である。現実のシナリオでは、ビュー間の推論は、明示的なガイダンスなしで部分的な観察を統合する必要がある。我々は物理基底シミュレーションを利用して、ビュー毎の正確なメタデータを持つ多種多様な高忠実な3Dシーンを構築する。
論文参考訳（メタデータ） (2026-03-17T13:36:30Z)
Multi-session Localization and Mapping Exploiting Topological Information [1.3316173544577008]
地図に基づくローカライゼーションに基づく新しいマルチセッションフレームワークを提案する。提案手法にはトポロジインフォームドな不確実性を考慮した意思決定機構が組み込まれている。提案手法は,データセットから重なり合う配列について検証し,実世界の鉱山のような環境での有効性を実証する。
論文参考訳（メタデータ） (2026-02-19T10:17:46Z)
DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。 DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文参考訳（メタデータ） (2026-02-11T12:51:10Z)
WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文参考訳（メタデータ） (2025-12-02T09:02:20Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Far Away in the Deep Space: Dense Nearest-Neighbor-Based Out-of-Distribution Detection [33.78080060234557]
Nearest-Neighborsアプローチは、オブジェクト中心のデータドメインでうまく機能することが示されている。近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近近
論文参考訳（メタデータ） (2022-11-12T13:32:19Z)
Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2021-12-15T01:45:32Z)
Glimpse-Attend-and-Explore: Self-Attention for Active Visual Exploration [47.01485765231528]
アクティブな視覚探索は、限られた視野を持つエージェントが部分的な観察に基づいて環境を理解するのを支援することを目的としている。タスク固有の不確実性マップではなく、自己注意を用いて視覚探索をガイドするGlimpse-Attend-and-Exploreモデルを提案する。私たちのモデルは、探索を駆動する際のデータセットバイアスに頼らずに、奨励的な結果を提供します。
論文参考訳（メタデータ） (2021-08-26T11:41:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。