論文の概要: Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.08125v2
- Date: Thu, 19 Dec 2024 05:46:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:28:56.569753
- Title: Progressive Multi-granular Alignments for Grounded Reasoning in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける接地推論のための進行的多粒性アライメント
- Authors: Quang-Hung Le, Long Hoang Dang, Ngan Le, Truyen Tran, Thao Minh Le,
- Abstract要約: 本稿では,プログレッシブ・マルチグラニュラー・ビジョン・ランゲージアライメント(PromViL)を紹介する。
提案手法は, 単純な概念から複雑な概念まで, 多モードアライメントの階層構造を構築する。
テキスト記述と対応する視覚領域を段階的に整合させることで,低レベルからの文脈情報を活用して高レベルな推論を行う。
- 参考スコア(独自算出の注目度): 19.054780489639793
- License:
- Abstract: Existing Large Vision-Language Models (LVLMs) excel at matching concepts across multi-modal inputs but struggle with compositional concepts and high-level relationships between entities. This paper introduces Progressive multi-granular Vision-Language alignments (PromViL), a novel framework to enhance LVLMs' ability in performing grounded compositional visual reasoning tasks. Our approach constructs a hierarchical structure of multi-modal alignments, ranging from simple to complex concepts. By progressively aligning textual descriptions with corresponding visual regions, our model learns to leverage contextual information from lower levels to inform higher-level reasoning. To facilitate this learning process, we introduce a data generation process that creates a novel dataset derived from Visual Genome, providing a wide range of nested compositional vision-language pairs. Experimental results demonstrate that our PromViL framework significantly outperforms baselines on various visual grounding and compositional question answering tasks. The code is available at: https://github.com/lqh52/PromViL.
- Abstract(参考訳): 既存のLVLM(Large Vision-Language Models)は、マルチモーダル入力にまたがる概念のマッチングに優れるが、構成概念とエンティティ間の高レベルな関係に苦戦する。
本稿では,LVLMの基底合成視覚推論タスクにおける能力を高める新しいフレームワークであるProgressive Multi-granular Vision-Languageアライメント(PromViL)を紹介する。
提案手法は, 単純な概念から複雑な概念まで, 多モードアライメントの階層構造を構築する。
テキスト記述と対応する視覚領域を段階的に整合させることで,低レベルからの文脈情報を活用して高レベルな推論を行う。
この学習プロセスを容易にするために、我々は、Visual Genomeから派生した新しいデータセットを作成するデータ生成プロセスを導入し、幅広いネストされた合成視覚言語ペアを提供する。
実験の結果,我々のPromViLフレームワークは,様々な視覚的接地および構成的質問応答タスクのベースラインを著しく上回っていることがわかった。
コードは、https://github.com/lqh52/PromViL.comで入手できる。
関連論文リスト
- In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。