論文の概要: Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.12776v1
- Date: Sun, 15 Jun 2025 08:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.814647
- Title: Native Visual Understanding: Resolving Resolution Dilemmas in Vision-Language Models
- Title(参考訳): ネイティブビジュアル理解:ビジョンランゲージモデルにおける解像度ジレンマの解消
- Authors: Junbo Niu, Yuanhong Zheng, Ziyang Miao, Hejun Dong, Chunjiang Ge, Hao Liang, Ma Lu, Bohan Zeng, Qiahao Zheng, Conghui He, Wentao Zhang,
- Abstract要約: VLM(Vision-Language Models)は、現実世界の画像の様々な解像度とアスペクト比を扱う際に大きな課題に直面する。
極端視覚条件下でのVLM機能評価のための新しいベンチマークであるRC-Benchを紹介する。
我々はまた、オープンソースのトレーニングフレームワークであるNativeRes-LLaVAを提案し、VLMがネイティブ解像度とアスペクト比で画像を効果的に処理できるようにする。
- 参考スコア(独自算出の注目度): 21.577488819845982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) face significant challenges when dealing with the diverse resolutions and aspect ratios of real-world images, as most existing models rely on fixed, low-resolution inputs. While recent studies have explored integrating native resolution visual encoding to improve model performance, such efforts remain fragmented and lack a systematic framework within the open-source community. Moreover, existing benchmarks fall short in evaluating VLMs under varied visual conditions, often neglecting resolution as a critical factor. To address the "Resolution Dilemma" stemming from both model design and benchmark limitations, we introduce RC-Bench, a novel benchmark specifically designed to systematically evaluate VLM capabilities under extreme visual conditions, with an emphasis on resolution and aspect ratio variations. In conjunction, we propose NativeRes-LLaVA, an open-source training framework that empowers VLMs to effectively process images at their native resolutions and aspect ratios. Based on RC-Bench and NativeRes-LLaVA, we conduct comprehensive experiments on existing visual encoding strategies. The results show that Native Resolution Visual Encoding significantly improves the performance of VLMs on RC-Bench as well as other resolution-centric benchmarks. Code is available at https://github.com/Niujunbo2002/NativeRes-LLaVA.
- Abstract(参考訳): VLM(Vision-Language Models)は、実際の画像の様々な解像度とアスペクト比を扱う際に大きな課題に直面している。
最近の研究では、モデルパフォーマンスを改善するためにネイティブ解像度のビジュアルエンコーディングの統合について検討されているが、そのような取り組みは断片化され、オープンソースコミュニティには体系的なフレームワークが欠如している。
さらに、既存のベンチマークでは、様々な視覚条件下でのVLMの評価が不足しており、しばしば分解能を重要な要因として無視する。
モデル設計とベンチマークの制約から生じる「解答ジレンマ」に対処するため,極端視覚条件下でのVLM能力を体系的に評価する新しいベンチマークRC-Benchを導入し,解像度とアスペクト比の変動に着目した。
オープンソーストレーニングフレームワークであるNativeRes-LLaVAを提案し、VLMがネイティブ解像度とアスペクト比で画像を効果的に処理できるようにする。
RC-BenchとNativeRes-LLaVAに基づいて、既存のビジュアルエンコーディング戦略に関する包括的な実験を行う。
その結果,Native Resolution Visual EncodingはRC-Bench上でのVLMの性能と,他の解像度中心のベンチマークを大幅に向上させることがわかった。
コードはhttps://github.com/Niujunbo2002/NativeRes-LLaVAで公開されている。
関連論文リスト
- Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - MRET: Multi-resolution Transformer for Video Quality Assessment [37.355412115794195]
ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。
現在、大量のビデオは720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオに対して高周波の詳細を欠いている。
本稿では,高分解能な品質情報を保存するトランスフォーマーベースのNR-VQAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T21:48:49Z) - Improving Performance of Object Detection using the Mechanisms of Visual
Recognition in Humans [0.4297070083645048]
我々はまず、画像解像度の関数として最先端のディープオブジェクト認識ネットワークであるFaster-RCNNの性能を追跡する。
また、認識過程において、異なる空間周波数が物体に関する異なる情報を伝えることも示している。
単分解能ネットワークではなく,多分解能オブジェクト認識フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-23T19:09:36Z) - ResFormer: Scaling ViTs with Multi-Resolution Training [100.01406895070693]
私たちはResFormerを紹介します。ResFormerは、広く、ほとんど目に見えない、テストの解像度でパフォーマンスを改善するフレームワークです。
特にResFormerは、異なる解像度の再現されたイメージを実行し、さまざまなスケールでインタラクティブな情報をエンゲージするスケール一貫性の損失を強制する。
さらに、ResFormerは柔軟性があり、セマンティックセグメンテーション、オブジェクト検出、ビデオアクション認識に容易に拡張できることを示す。
論文 参考訳(メタデータ) (2022-12-01T18:57:20Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。