論文の概要: InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2403.01487v1
- Date: Sun, 3 Mar 2024 11:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:04:18.021261
- Title: InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding
- Title(参考訳): InfiMM-HD:高分解能マルチモーダル理解の飛躍
- Authors: Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai,
Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
- Abstract要約: InfiMM-HDは、計算オーバーヘッドの少ない様々な解像度の画像を処理するために特別に設計された新しいアーキテクチャである。
このアーキテクチャ設計を4段階のトレーニングパイプラインに統合することにより、我々のモデルは視覚的知覚を効率よく、コスト効率良く向上させることができる。
- 参考スコア(独自算出の注目度): 80.41280837603607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have experienced significant
advancements recently. Nevertheless, challenges persist in the accurate
recognition and comprehension of intricate details within high-resolution
images. Despite being indispensable for the development of robust MLLMs, this
area remains underinvestigated. To tackle this challenge, our work introduces
InfiMM-HD, a novel architecture specifically designed for processing images of
different resolutions with low computational overhead. This innovation
facilitates the enlargement of MLLMs to higher-resolution capabilities.
InfiMM-HD incorporates a cross-attention module and visual windows to reduce
computation costs. By integrating this architectural design with a four-stage
training pipeline, our model attains improved visual perception efficiently and
cost-effectively. Empirical study underscores the robustness and effectiveness
of InfiMM-HD, opening new avenues for exploration in related areas. Codes and
models can be found at https://huggingface.co/Infi-MM/infimm-hd
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年大きな進歩を遂げている。
しかし、課題は高解像度画像内の複雑な詳細を正確に認識し理解することにある。
堅固なMLLMの開発には欠かせないが、まだ未調査である。
InfiMM-HDは、計算オーバーヘッドの少ない様々な解像度の画像を処理するために特別に設計された新しいアーキテクチャである。
この革新はMLLMの高解像度化を促進する。
infimm-hdはクロスアテンションモジュールとビジュアルウィンドウを組み込んで計算コストを削減している。
このアーキテクチャ設計を4段階のトレーニングパイプラインに統合することにより,視覚知覚の効率とコスト効率が向上する。
実証的研究は、InfiMM-HDのロバスト性と有効性を強調し、関連する領域での探索のための新たな道を開く。
コードとモデルはhttps://huggingface.co/infi-mm/infimm-hdにある。
関連論文リスト
- Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large
Language Models [84.78513908768011]
MRA(Mixture-of-Resolution Adaptation)と呼ばれるMLLMの新規かつ効率的な手法を提案する。
MRAは解像度の異なる画像に対して2つの視覚経路を採用し、高解像度の視覚情報を低解像度の経路に埋め込む。
MRAを検証するために、LLaVAと呼ばれる最近のMLLMに適用し、新しいモデルLLaVA-HRと呼ぶ。
論文 参考訳(メタデータ) (2024-03-05T14:31:24Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - MixNet: Towards Effective and Efficient UHD Low-Light Image Enhancement [45.801789547053026]
そこで本研究では,UHD画像用に設計したMixNetという低照度画像強調手法を提案する。
過剰な計算複雑性を伴わずに、機能の長距離依存性を捉えるために、Global Feature Modulation Layer (GFML)を提示する。
さらに、局所特徴変調層(LFML)とフィードフォワード層(FFL)を設計して、局所特徴をキャプチャし、特徴をコンパクトな表現に変換する。
論文 参考訳(メタデータ) (2024-01-19T12:40:54Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Interpretable Hyperspectral AI: When Non-Convex Modeling meets
Hyperspectral Remote Sensing [57.52865154829273]
ハイパースペクトルイメージング、別名画像分光法は、地球科学リモートセンシング(RS)におけるランドマーク技術です。
過去10年間で、主に熟練した専門家によってこれらのハイパースペクトル(HS)製品を分析するための取り組みが行われています。
このため、さまざまなHS RSアプリケーションのためのよりインテリジェントで自動的なアプローチを開発することが急務です。
論文 参考訳(メタデータ) (2021-03-02T03:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。