論文の概要: HIRE: Lightweight High-Resolution Image Feature Enrichment for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2506.17608v1
- Date: Sat, 21 Jun 2025 06:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.49903
- Title: HIRE: Lightweight High-Resolution Image Feature Enrichment for Multimodal LLMs
- Title(参考訳): HIRE:マルチモーダルLLMの軽量高分解能画像化
- Authors: Nikitha SR, Aradhya Neeraj Mathur, Tarun Ram Menta, Rishabh Jain, Mausoom Sarkar,
- Abstract要約: 我々は,高分解能な特徴生成の自然な拡張として,特徴アップサンプリングの直感性を開発する。
本研究では,浅部機能拡張器がトレーニング時間や推論時間を大幅に削減し,計算コストを抑えることにより,競争結果の達成を実証する。
- 参考スコア(独自算出の注目度): 5.362066717455192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of high-resolution image features in modern multimodal large language models has demonstrated significant improvements in fine-grained visual understanding tasks, achieving high performance across multiple benchmarks. Since these features are obtained from large image encoders like ViT, they come with a significant increase in computational costs due to multiple calls to these encoders. In this work, we first develop an intuition for feature upsampling as a natural extension of high-resolution feature generation. Through extensive experiments and ablations, we demonstrate how a shallow feature enricher can achieve competitive results with tremendous reductions in training and inference time as well as computational cost, with upto 1.5x saving in FLOPs.
- Abstract(参考訳): 現代のマルチモーダルな大規模言語モデルにおける高解像度画像機能の統合は、きめ細かい視覚的理解タスクを大幅に改善し、複数のベンチマークでハイパフォーマンスを実現している。
これらの特徴は、ViTのような大きな画像エンコーダから得られるため、これらのエンコーダへの複数の呼び出しにより、計算コストが大幅に増大する。
本研究では,まず,高分解能な特徴生成の自然な拡張として,特徴アップサンプリングの直感性を開発する。
実験や改善を通じて,訓練時間や推論時間,計算コストの大幅な削減,FLOPの最大1.5倍の節約などにより,浅部機能拡張器が競争力を発揮することを示す。
関連論文リスト
- JAFAR: Jack up Any Feature at Any Resolution [53.343826346140624]
JAFARは、Foundation Visionsの軽量で柔軟な機能アップサンプラーである。
これは、どんなファンデーションビジョンから任意の目標解像度まで、視覚的特徴の空間分解能を高める。
非常に高い出力スケールに非常によく一般化する。
論文 参考訳(メタデータ) (2025-06-10T20:53:12Z) - FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks [36.61645124563195]
カスケード拡散モデルを用いて高画質画像を複数解像度で生成する新しいアーキテクチャであるUltraPixelを提案する。
後半の認知段階における低分解能画像のセマンティクスに富んだ表現を用いて、高精細高分解能画像の全生成を導く。
我々のモデルは、データ要求を減らして高速なトレーニングを行い、フォトリアリスティックな高解像度画像を生成する。
論文 参考訳(メタデータ) (2024-07-02T11:02:19Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Wider and Higher: Intensive Integration and Global Foreground Perception
for Image Matting [44.51635913732913]
本稿では,近年の深層学習によるマッティング研究をレビューし,我々の画像マッティングに対するより広範なモチベーションと高いモチベーションについて考察する。
画像マッチングは基本的にピクセル単位での回帰であり、理想的な状況は入力画像から最大不透明度を知覚することである。
Intensive Integration and Global Foreground Perception Network (I2GFP) を提案する。
論文 参考訳(メタデータ) (2022-10-13T11:34:46Z) - Hybrid Pixel-Unshuffled Network for Lightweight Image Super-Resolution [64.54162195322246]
畳み込みニューラルネットワーク(CNN)は画像超解像(SR)において大きな成功を収めた
ほとんどのディープCNNベースのSRモデルは、高い性能を得るために大量の計算を処理している。
SRタスクに効率的かつ効果的なダウンサンプリングモジュールを導入することで,HPUN(Hybrid Pixel-Unshuffled Network)を提案する。
論文 参考訳(メタデータ) (2022-03-16T20:10:41Z) - Exploring Multi-Scale Feature Propagation and Communication for Image
Super Resolution [37.91175933401261]
広義のマルチスケール構造に対する統一的な定式化を提案する。
汎用的で効率的なマルチスケール・コンボリューション・ユニット - マルチスケール・クロススケール・シェアウェイト・コンボリューション(MS$3$-Conv)を提案する。
論文 参考訳(メタデータ) (2020-08-01T10:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。