論文の概要: ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.21991v1
- Date: Fri, 26 Sep 2025 07:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.26517
- Title: ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models
- Title(参考訳): ERGO:視覚言語モデルのための効率的な高分解能視覚理解
- Authors: Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim,
- Abstract要約: ERGOは推論駆動の知覚平均化マルチモーダルコンテキストで、どこにフォーカスするかを決定する。
我々は、粗大な知覚のための強化学習フレームワークにおいて、単純で効果的な報酬成分を開発する。
提案手法は,従来のモデルや競合手法よりも精度が高く,効率が向上する。
- 参考スコア(独自算出の注目度): 11.263321053154364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; then, only these regions are cropped at full resolution and processed in a subsequent reasoning stage. This approach reduces computational cost while preserving fine-grained visual details where necessary. A major challenge lies in inferring which regions are truly relevant to a given query. Recent related methods often fail in the first stage after input-image downsampling, due to perception-driven reasoning, where clear visual information is required for effective reasoning. To address this issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs reasoning-driven perception-leveraging multimodal context to determine where to focus. Our model can account for perceptual uncertainty, expanding the cropped region to cover visually ambiguous areas for answering questions. To this end, we develop simple yet effective reward components in a reinforcement learning framework for coarse-to-fine perception. Across multiple datasets, our approach delivers higher accuracy than the original model and competitive methods, with greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V* benchmark by 4.7 points while using only 23% of the vision tokens, achieving a 3x inference speedup. The code and models can be found at: https://github.com/nota-github/ERGO.
- Abstract(参考訳): 高解像度画像の効率的な処理は、現実の視覚言語アプリケーションには不可欠である。
しかし、既存のLVLM(Large Vision-Language Models)は、多数の視覚トークンのためにかなりの計算オーバーヘッドを発生させる。
イメージによる思考”モデルの出現により、推論はテキストを超えて視覚領域へと拡張された。
この能力は、2段階の"粗い"推論パイプラインを動機付けます。まず、ダウンサンプル画像を分析してタスク関連領域を特定します。
このアプローチは、必要に応じてきめ細かい視覚的詳細を保存しながら、計算コストを削減する。
大きな課題は、どのリージョンが与えられたクエリに本当に関連しているかを推測することである。
近年の関連手法は、視覚情報を効果的に推論するために、知覚駆動推論(英語版)により、入力画像のダウンサンプリングの最初の段階で失敗することが多い。
この問題に対処するため,ERGO (Efficient Reasoning & Guided Observation) を提案する。
我々のモデルは知覚の不確実性を考慮し,その領域を視覚的に不明瞭な領域に拡大し,質問に答えることができる。
この目的のために、我々は粗大な知覚のための強化学習フレームワークにおいて、単純で効果的な報酬成分を開発する。
複数のデータセットにまたがって、我々の手法は元のモデルや競合する手法よりも精度が高く、効率が良い。
例えば、ERGOはV*ベンチマークのQwen2.5-VL-7Bを4.7ポイント上回り、視覚トークンの23%しか使用せず、3倍の推論スピードアップを実現している。
コードとモデルについては、https://github.com/nota-github/ERGOを参照してください。
関連論文リスト
- CoFFT: Chain of Foresight-Focus Thought for Visual Language Models [61.34272727005052]
フォレスト・フォーカス思考の連鎖(英語: Chain of Foresight-Focus Thought, CoFFT)は、人間の視覚的認知をエミュレートすることによって視覚的推論を強化する訓練のないアプローチである。
これらの段階は反復的に機能し、推論が視覚的焦点を導き、視覚的焦点がその後の推論を知らせる相互依存サイクルを生成する。
Qwen2.5-VL、InternVL-2.5、Llava-Nextを使った複数のベンチマークでの実証結果では、3.1-5.8%が一貫したパフォーマンス向上を示し、計算オーバーヘッドは増大した。
論文 参考訳(メタデータ) (2025-09-26T07:46:30Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering [5.840924060437216]
我々は、最も関連性の高い画像領域の探索をガイドする、FOCUSと呼ばれる訓練不要な視覚的収穫法を提案する。
FOCUSは4つの細粒度VQAデータセットと2種類のMLLMに対して高いパフォーマンスを実現している。
精度と効率の両面で人気の高い3つのビジュアルトリミング法を上回り、最高のパフォーマンスのベースラインであるZoomEyeに匹敵する。
論文 参考訳(メタデータ) (2025-06-26T18:51:04Z) - VisuRiddles: Fine-grained Perception is a Primary Bottleneck for Multimodal Large Language Models in Abstract Visual Reasoning [66.84770041828462]
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、多くの推論タスクにおいて、その性能を著しく向上させてきた。
AVR(Abstract Visual Reasoning)は、抽象グラフィックの知覚に制限があるため、依然として重要な課題である。
PRSのベンチマークであるVisuRiddlesを提案し、モデルの推論能力を評価するために精巧に構築されたタスクを特徴付ける。
第二に、パーセプチュアル・リドル・シンセサイザー (PRS) を導入する。
論文 参考訳(メタデータ) (2025-06-03T07:24:00Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - Addressing a fundamental limitation in deep vision models: lack of spatial attention [43.37813040320147]
この写本の目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。
人間の視覚とは異なり、深層視覚モデルは画像全体を処理する。
我々は、次世代のより効率的な視覚モデルに道を開く2つのソリューションを提案する。
論文 参考訳(メタデータ) (2024-07-01T20:21:09Z) - Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。