論文の概要: AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding
- arxiv url: http://arxiv.org/abs/2408.16986v1
- Date: Fri, 30 Aug 2024 03:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:39:11.532341
- Title: AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding
- Title(参考訳): AdaptVision: 可変シーン理解のためのMLLMの動的入力スケーリング
- Authors: Yonghui Wang, Wengang Zhou, Hao Feng, Houqiang Li,
- Abstract要約: 本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
- 参考スコア(独自算出の注目度): 96.01726275876548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, the advancement of Multimodal Large Language Models (MLLMs) has captured the wide interest of researchers, leading to numerous innovations to enhance MLLMs' comprehension. In this paper, we present AdaptVision, a multimodal large language model specifically designed to dynamically process input images at varying resolutions. We hypothesize that the requisite number of visual tokens for the model is contingent upon both the resolution and content of the input image. Generally, natural images with a lower information density can be effectively interpreted by the model using fewer visual tokens at reduced resolutions. In contrast, images containing textual content, such as documents with rich text, necessitate a higher number of visual tokens for accurate text interpretation due to their higher information density. Building on this insight, we devise a dynamic image partitioning module that adjusts the number of visual tokens according to the size and aspect ratio of images. This method mitigates distortion effects that arise from resizing images to a uniform resolution and dynamically optimizing the visual tokens input to the LLMs. Our model is capable of processing images with resolutions up to $1008\times 1008$. Extensive experiments across various datasets demonstrate that our method achieves impressive performance in handling vision-language tasks in both natural and text-related scenes. The source code and dataset are now publicly available at \url{https://github.com/harrytea/AdaptVision}.
- Abstract(参考訳): 過去数年間、MLLM(Multimodal Large Language Models)の進歩は研究者の関心をひきつけ、MLLMの理解を深めるための多くの革新をもたらした。
本稿では,様々な解像度で入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
我々は、入力画像の解像度と内容の両方に基づいて、モデルに必要な視覚トークンの必要個数を仮定する。
一般に、情報密度の低い自然画像は、解像度の低い視覚トークンを用いて、モデルによって効果的に解釈できる。
対照的に、リッチテキストを含む文書などのテキストコンテンツを含む画像は、高い情報密度のために正確なテキスト解釈のために、より多くの視覚トークンを必要とする。
この知見に基づいて、画像のサイズとアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
画像の縮小から均一な解像度への歪み効果を軽減し、LLMに入力された視覚トークンを動的に最適化する。
私たちのモデルは、解像度1008\times 1008$までの画像を処理できます。
様々なデータセットにわたる大規模な実験により,本手法は自然場面とテキスト場面の両方で視覚言語タスクを処理できることが実証された。
ソースコードとデータセットは現在、 \url{https://github.com/harrytea/AdaptVision}で公開されている。
関連論文リスト
- Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming [33.40963475653868]
DocKylinは文書中心のMLLMで、ピクセルレベルとトークンレベルの両方でビジュアルコンテンツをスリム化する。
本稿では,ピクセルレベルのスリム化を行うためのAPSプリプロセッシングモジュールを提案する。
また,トークンレベルスライミングを行う新しい動的トークンスライミング(DTS)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-27T11:28:36Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。