論文の概要: Task-Aware Resolution Optimization for Visual Large Language Models
- arxiv url: http://arxiv.org/abs/2510.09822v1
- Date: Fri, 10 Oct 2025 19:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.638126
- Title: Task-Aware Resolution Optimization for Visual Large Language Models
- Title(参考訳): 視覚大言語モデルのタスク認識分解能最適化
- Authors: Weiqing Luo, Zhen Tan, Yifan Li, Xinyu Zhao, Kwonjoon Lee, Behzad Dariush, Tianlong Chen,
- Abstract要約: ほとんどの視覚的大言語モデル(VLLM)は、下流タスクの固定解像度を前提としており、サブパーパフォーマンスをもたらす。
本稿では,これらの2つの要因を組み合わせ,与えられた視覚言語課題の最適解を求める実験式を提案する。
第二に、厳密な実験に基づいて、事前学習したVLLMの視覚入力分解能を同定された最適分解能に拡張する新しいパラメータ効率の微調整手法を提案する。
- 参考スコア(独自算出の注目度): 57.85959322093884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world vision-language applications demand varying levels of perceptual granularity. However, most existing visual large language models (VLLMs), such as LLaVA, pre-assume a fixed resolution for downstream tasks, which leads to subpar performance. To address this problem, we first conduct a comprehensive and pioneering investigation into the resolution preferences of different vision-language tasks, revealing a correlation between resolution preferences with image complexity, and uncertainty variance of the VLLM at different image input resolutions. Building on this insight, we propose an empirical formula to determine the optimal resolution for a given vision-language task, combining these two factors. Second, based on rigorous experiments, we propose a novel parameter-efficient fine-tuning technique to extend the visual input resolution of pre-trained VLLMs to the identified optimal resolution. Extensive experiments on various vision-language tasks validate the effectiveness of our method.
- Abstract(参考訳): 現実の視覚言語アプリケーションは知覚の粒度のレベルを要求される。
しかし、LLaVAのような既存の視覚的大規模言語モデル(VLLM)は、下流タスクの固定解像度を前提としており、性能が劣る。
この問題に対処するために、私たちはまず、視覚言語タスクの解決選好に関する包括的で先駆的な調査を行い、解像度選好と画像複雑度との相関と、画像入力解決におけるVLLMの不確かさの相違を明らかにする。
この知見に基づいて、与えられた視覚言語タスクの最適解を決定するための経験的公式を提案し、これら2つの要素を組み合わせる。
第二に、厳密な実験に基づいて、事前学習したVLLMの視覚入力分解能を同定された最適分解能に拡張する新しいパラメータ効率の微調整手法を提案する。
様々な視覚言語タスクに対する広範囲な実験により,本手法の有効性が検証された。
関連論文リスト
- Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models [21.577488819845982]
VLM(Vision-Language Models)は、現実世界の画像の様々な解像度とアスペクト比を扱う際に大きな課題に直面する。
極端視覚条件下でのVLM機能評価のための新しいベンチマークであるRC-Benchを紹介する。
我々はまた、オープンソースのトレーニングフレームワークであるNativeRes-LLaVAを提案し、VLMがネイティブ解像度とアスペクト比で画像を効果的に処理できるようにする。
論文 参考訳(メタデータ) (2025-06-15T08:58:09Z) - SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation [35.50570174431677]
本稿では,WSI(Whole Slide Images)を利用して複数解像度でヒストロジパッチを抽出する新しいマルチレゾリューションパラダイムを提案する。
複数の解像度での視覚的テキストアライメントと、より効果的なテキスト誘導視覚表現を確立するためのクロスレゾリューションアライメントを導入する。
本モデルは,新しい損失関数に支えられ,特徴表現を豊かにし,識別能力を向上させ,様々な解像度での一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2025-04-26T08:44:04Z) - High Efficiency Image Compression for Large Visual-Language Models [14.484831372497437]
大規模視覚言語モデル(LVLM)は、マルチモーダルタスクにおいて優れた性能と有望な一般化能力を示している。
本稿では,事前編集モジュールとエンドツーエンドから構成される可変画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-24T07:37:12Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。