論文の概要: CARES: Context-Aware Resolution Selector for VLMs
- arxiv url: http://arxiv.org/abs/2510.19496v1
- Date: Wed, 22 Oct 2025 11:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.747515
- Title: CARES: Context-Aware Resolution Selector for VLMs
- Title(参考訳): CARES: VLMのためのコンテキスト対応解像度セレクタ
- Authors: Moshe Kimhi, Nimrod Shabtay, Raja Giryes, Chaim Baskin, Eli Schwartz,
- Abstract要約: 大規模な視覚言語モデル(VLM)は、通常、ネイティブまたは高解像度で画像を処理し、タスク全体にわたって効果的に維持する。
本稿では,簡単な事前処理モジュールであるemphCARESを紹介する。
CARESはタスク性能を最大80%削減しながら維持する。
- 参考スコア(独自算出の注目度): 29.734101330721263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (VLMs) commonly process images at native or high resolution to remain effective across tasks. This inflates visual tokens ofter to 97-99% of total tokens, resulting in high compute and latency, even when low-resolution images would suffice. We introduce \emph{CARES}-a \textbf{C}ontext-\textbf{A}ware \textbf{R}esolution \textbf{S}elector, a lightweight preprocessing module that, given an image-query pair, predicts the \emph{minimal} sufficient input resolution. CARES uses a compact VLM (350M) to extract features and predict when a target pretrained VLM's response converges to its peak ability to answer correctly. Though trained as a discrete classifier over a set of optional resolutions, CARES interpolates continuous resolutions at inference for fine-grained control. Across five multimodal benchmarks spanning documents and natural images, as well as diverse target VLMs, CARES preserves task performance while reducing compute by up to 80%.
- Abstract(参考訳): 大規模な視覚言語モデル(VLM)は、通常、ネイティブまたは高解像度で画像を処理し、タスク全体にわたって効果的に維持する。
これにより、全トークンの97~99%の視覚トークンが膨らみ、低解像度の画像が十分である場合でも、高い計算とレイテンシが生じる。
画像クエリ対を与えられた軽量プリプロセッシングモジュールである \emph{CARES}-a \textbf{C}ontext-\textbf{A}ware \textbf{R}esolution \textbf{S}elector を導入する。
CARESはコンパクトなVLM(350M)を使用して特徴を抽出し、目標の事前訓練されたVLMの応答が正解するピーク能力に収束するタイミングを予測する。
任意の分解能の集合に対して離散分類器として訓練されるが、CARESは微粒な制御のために推論時に連続分解能を補間する。
ドキュメントと自然画像にまたがる5つのマルチモーダルベンチマークに加えて、多様なターゲットVLMの他、CARESはタスクパフォーマンスを最大80%削減しながら、タスクパフォーマンスを維持できる。
関連論文リスト
- ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。
本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。
実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-14T17:58:10Z) - Mitigating Cross-Image Information Leakage in LVLMs for Multi-Image Tasks [22.873506907783153]
本稿では,推論中のクロスイメージ情報漏洩を緩和する,トレーニングフリーでアーキテクチャに依存しないデコーディング戦略を提案する。
FOCUSは4つのマルチイメージベンチマークと多様なLVLMファミリーのパフォーマンスを継続的に改善する。
このことは、FOCUSが、追加のトレーニングやアーキテクチャの変更なしに、マルチイメージ推論を強化する汎用的で実用的なソリューションを提供することを示している。
論文 参考訳(メタデータ) (2025-08-19T11:31:39Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - A Training-Free, Task-Agnostic Framework for Enhancing MLLM Performance on High-Resolution Images [19.549498712690404]
MLLM(Multimodal Large Language Models)は、視覚言語理解、推論、生成において顕著な能力を示す。
彼らは、高解像度の画像において、きめ細かい局所化と推論を必要とするタスクに苦労する。
本研究では,高解像度画像上でのMLLM性能向上を目的とした,学習不要でタスクに依存しない新しい2段階のフレームワークであるExtract Candidate then Predict (ECP)を提案する。
論文 参考訳(メタデータ) (2025-07-14T12:14:53Z) - HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。
高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。
HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文 参考訳(メタデータ) (2025-06-04T20:08:07Z) - When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文 参考訳(メタデータ) (2025-03-10T17:51:16Z) - Memory Efficient Matting with Adaptive Token Routing [73.09131141304984]
トランスフォーマーベースのモデルは、最近、画像マッチングにおいて優れたパフォーマンスを達成している。
MeMatteは、高解像度画像を処理するためのtextbfMemory-textbfefficient textbfmattingフレームワークである。
論文 参考訳(メタデータ) (2024-12-14T06:21:24Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。