論文の概要: Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.14276v1
- Date: Fri, 24 Jan 2025 06:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:09.272123
- Title: Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models
- Title(参考訳): 高分解能大型ビジョンランゲージモデルにおけるグローバルセマンティック誘導サブイメージの重み付け
- Authors: Yuxuan Liang, Xu Li, Xiaolei Chen, Haotian Chen, Yi Zheng, Chenghang Lai, Bin Li, Xiangyang Xue,
- Abstract要約: 画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
- 参考スコア(独自算出の注目度): 50.98559225639266
- License:
- Abstract: As the demand for high-resolution image processing in Large Vision-Language Models (LVLMs) grows, sub-image partitioning has become a popular approach for mitigating visual information loss associated with fixed-resolution processing. However, existing partitioning methods uniformly process sub-images, resulting in suboptimal image understanding. In this work, we reveal that the sub-images with higher semantic relevance to the entire image encapsulate richer visual information for preserving the model's visual understanding ability. Therefore, we propose the Global Semantic-guided Weight Allocator (GSWA) module, which dynamically allocates weights to sub-images based on their relative information density, emulating human visual attention mechanisms. This approach enables the model to focus on more informative regions, overcoming the limitations of uniform treatment. We integrate GSWA into the InternVL2-2B framework to create SleighVL, a lightweight yet high-performing model. Extensive experiments demonstrate that SleighVL outperforms models with comparable parameters and remains competitive with larger models. Our work provides a promising direction for more efficient and contextually aware high-resolution image processing in LVLMs, advancing multimodal system development.
- Abstract(参考訳): LVLM(Large Vision-Language Models)における高精細画像処理の需要が増大するにつれて、サブイメージ分割は、固定解像度処理に伴う視覚情報損失を軽減するための一般的なアプローチとなっている。
しかし、既存のパーティショニング手法はサブイメージを一様に処理し、最適化された画像理解をもたらす。
本研究では,画像全体の意味的関連性が高いサブイメージが,よりリッチな視覚情報をカプセル化して,モデルの視覚的理解能力を維持することを明らかにする。
そこで我々は,人間の視覚的注意機構を模擬したGlobal Semantic-Guided Weight Allocator (GSWA)モジュールを提案する。
このアプローチにより、一様処理の限界を克服し、より情報的な領域に集中することが可能となる。
GSWAをInternVL2-2Bフレームワークに統合し、軽量で高性能なSleighVLを作成する。
大規模な実験では、SleighVLは同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合する。
我々の研究は、LVLMにおけるより効率的かつ文脈的に認識された高解像度画像処理のための有望な方向を提供し、マルチモーダルシステム開発を推進している。
関連論文リスト
- Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。
本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。
損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文 参考訳(メタデータ) (2024-12-26T11:46:22Z) - Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。