論文の概要: Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs
- arxiv url: http://arxiv.org/abs/2603.16932v1
- Date: Sat, 14 Mar 2026 10:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.269809
- Title: Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs
- Title(参考訳): 効率的なVLMのための高分解能クロップ検索
- Authors: Nimrod Shabtay, Moshe Kimhi, Artem Spector, Sivan Haray, Ehud Rivlin, Chaim Baskin, Raja Giryes, Eli Schwartz,
- Abstract要約: 視覚言語モデル(VLM)は、通常、ネイティブの高解像度の画像を処理し、精度と計算効率のトレードオフを強制する。
AwaResは、低解像度のグローバルビューで動作し、ツールコールを使用して、所定のクエリに必要な高解像度セグメントのみを検索するフレームワークである。
- 参考スコア(独自算出の注目度): 28.88727946733177
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language models (VLMs) typically process images at a native high-resolution, forcing a trade-off between accuracy and computational efficiency: high-resolution inputs capture fine details but incur significant computational costs, while low-resolution inputs advocate for efficiency, they potentially miss critical visual information, like small text. We present AwaRes, a spatial-on-demand framework that resolves this accuracy-efficiency trade-off by operating on a low-resolution global view and using tool-calling to retrieve only high-resolution segments needed for a given query. We construct supervised data automatically: a judge compares low- vs.\ high-resolution answers to label whether cropping is needed, and an oracle grounding model localizes the evidence for the correct answer, which we map to a discrete crop set to form multi-turn tool-use trajectories. We train our framework with cold-start SFT followed by multi-turn GRPO with a composite reward that combines semantic answer correctness with explicit crop-cost penalties. Project page: https://nimrodshabtay.github.io/AwaRes
- Abstract(参考訳): 視覚言語モデル(VLM)は通常、画像をネイティブの高解像度で処理し、精度と計算効率のトレードオフを強制する。
AwaResは、低解像度のグローバルビューを運用し、ツールコールを使用して、所定のクエリに必要な高解像度セグメントのみを検索することで、この精度と効率のトレードオフを解決する、空間オンデマンドフレームワークである。
我々は教師付きデータを自動的に構築する。
オーラクルグラウンドリングモデルは正しい答えの証拠をローカライズし、それを離散的な作物集合にマップしてマルチターンツール利用軌跡を形成する。
コールドスタート SFT とマルチターンGRPO を併用し,セマンティック応答の正しさと明示的な作物コストの罰則を組み合わせた複合報酬を用いたフレームワークを訓練する。
プロジェクトページ:https://nimrodshabtay.github.io/AwaRes
関連論文リスト
- MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting [59.31340724915079]
イベントスポッティングは、スポーツ分析、ロボティクス、自律システムにおけるアプリケーションにとって重要なタスクである。
bfAdaSpotは厳格な評価基準の下で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-25T16:24:48Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - High Quality Segmentation for Ultra High-resolution Images [72.97958314291648]
超高分解能セグメンテーション精錬作業のための連続精細モデルを提案する。
提案手法は画像分割精細化において高速かつ効果的である。
論文 参考訳(メタデータ) (2021-11-29T11:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。