論文の概要: CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2412.16869v1
- Date: Sun, 22 Dec 2024 05:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:28.485204
- Title: CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models
- Title(参考訳): CoF:マルチモーダル大言語モデルのための細粒度画像理解
- Authors: Yeyuan Wang, Dehong Gao, Bin Li, Rujiao Long, Lei Yi, Xiaoyan Cai, Libin Yang, Jinxia Zhang, Shanqing Yu, Qi Xuan,
- Abstract要約: マルチモーダルな理解は、粗いものから細かいものへと、2つの段階に分けられる。
第1段階では,MLLMに回答のほぼ面積を特定するよう促す。
第2段階では、視覚的なプロンプトエンジニアリングにより、関連する領域に対するモデルの焦点をさらに強化する。
- 参考スコア(独自算出の注目度): 16.91226496250909
- License:
- Abstract: The impressive performance of Large Language Model (LLM) has prompted researchers to develop Multi-modal LLM (MLLM), which has shown great potential for various multi-modal tasks. However, current MLLM often struggles to effectively address fine-grained multi-modal challenges. We argue that this limitation is closely linked to the models' visual grounding capabilities. The restricted spatial awareness and perceptual acuity of visual encoders frequently lead to interference from irrelevant background information in images, causing the models to overlook subtle but crucial details. As a result, achieving fine-grained regional visual comprehension becomes difficult. In this paper, we break down multi-modal understanding into two stages, from Coarse to Fine (CoF). In the first stage, we prompt the MLLM to locate the approximate area of the answer. In the second stage, we further enhance the model's focus on relevant areas within the image through visual prompt engineering, adjusting attention weights of pertinent regions. This, in turn, improves both visual grounding and overall performance in downstream tasks. Our experiments show that this approach significantly boosts the performance of baseline models, demonstrating notable generalization and effectiveness. Our CoF approach is available online at https://github.com/Gavin001201/CoF.
- Abstract(参考訳): LLM(Large Language Model)の印象的な性能により、研究者はMLLM(Multi-modal LLM)を開発するようになった。
しかし、現在のMLLMは、しばしば細粒度のマルチモーダルな課題に効果的に対処するのに苦労している。
この制限はモデルの視覚的接地能力と密接に関連していると我々は主張する。
視覚エンコーダの空間認識と知覚力の制限は、画像の無関係な背景情報からの干渉をしばしば引き起こし、モデルが微妙だが重要な詳細を見落としてしまう。
その結果、きめ細かい視覚的理解の達成が困難になる。
本稿では,マルチモーダル理解を2段階に分割する。
第1段階では,MLLMに回答のほぼ面積を特定するよう促す。
第2段階では、視覚的プロンプトエンジニアリングにより、画像内の関連領域に焦点を当て、関連する領域の注意重みを調整することにより、モデルをさらに強化する。
これにより、ダウンストリームタスクの視覚的グラウンド化と全体的なパフォーマンスが向上する。
実験の結果,本手法はベースラインモデルの性能を著しく向上させ,顕著な一般化と有効性を示した。
私たちのCoFアプローチは、https://github.com/Gavin001201/CoF.comで公開されています。
関連論文リスト
- INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models [6.695747085909927]
MLLMにおけるプラグ・アンド・プレイグラウンドのための新しいフレームワークであるP2Gを紹介する。
P2Gは、画像内の重要な視覚的およびテキスト的要素への推論のオンザフライグラウンド化に専門家エージェントを使用している。
高解像度画像におけるオブジェクト間関係とテキスト内容の理解におけるMLLMの習熟度を評価するためのベンチマークであるP2GBを開発する。
論文 参考訳(メタデータ) (2024-03-28T11:26:30Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。