論文の概要: MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.09733v1
- Date: Sun, 13 Oct 2024 05:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 05:12:47.683170
- Title: MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models
- Title(参考訳): MMCOMPOSITION:事前学習型視覚言語モデルの構成性を再考する
- Authors: Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo,
- Abstract要約: 本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。
GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
- 参考スコア(独自算出の注目度): 85.10375181040436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of large Vision-Language Models (VLMs) has significantly advanced multimodal understanding, enabling more sophisticated and accurate integration of visual and textual information across various tasks, including image and video captioning, visual question answering, and cross-modal retrieval. Despite VLMs' superior capabilities, researchers lack a comprehensive understanding of their compositionality -- the ability to understand and produce novel combinations of known visual and textual components. Prior benchmarks provide only a relatively rough compositionality evaluation from the perspectives of objects, relations, and attributes while neglecting deeper reasoning about object interactions, counting, and complex compositions. However, compositionality is a critical ability that facilitates coherent reasoning and understanding across modalities for VLMs. To address this limitation, we propose MMCOMPOSITION, a novel human-annotated benchmark for comprehensively and accurately evaluating VLMs' compositionality. Our proposed benchmark serves as a complement to these earlier works. With MMCOMPOSITION, we can quantify and explore the compositionality of the mainstream VLMs. Surprisingly, we find GPT-4o's compositionality inferior to the best open-source model, and we analyze the underlying reasons. Our experimental analysis reveals the limitations of VLMs in fine-grained compositional perception and reasoning, and points to areas for improvement in VLM design and training. Resources available at: https://hanghuacs.github.io/MMComposition/
- Abstract(参考訳): VLM(Big Vision-Language Models)の出現は、画像やビデオのキャプション、視覚的質問応答、相互モーダル検索など、様々なタスクにおける視覚情報とテキスト情報のより洗練された正確な統合を可能にする、非常に高度なマルチモーダル理解をもたらしている。
VLMの優れた能力にもかかわらず、研究者は、その構成性 -- 既知の視覚的およびテキスト的コンポーネントの新しい組み合わせを理解し、生成する能力 -- を包括的に理解していない。
以前のベンチマークでは、オブジェクト、関係、属性の観点から比較的粗い構成性の評価しか提供せず、オブジェクトの相互作用、数え上げ、複雑な構成に関する深い推論を無視している。
しかしながら、構成性は、VLMのモダリティ間のコヒーレントな推論と理解を促進する重要な能力である。
この制限に対処するために,VLMの構成性を包括的かつ正確に評価する新しい人手によるベンチマークであるMMCOMPOSITIONを提案する。
提案したベンチマークは、これらの初期の研究を補完するものである。
MMCOMPOSITIONでは、主流のVLMの構成性を定量化し、探索することができる。
驚いたことに、GPT-4oの合成性は最高のオープンソースモデルよりも劣っていることが分かり、その基礎となる理由を分析した。
実験により,VLMの微細な構成知覚・推論における限界が明らかとなり,VLMの設計・訓練の改善領域が指摘された。
https://hanghuacs.github.io/MMComposition/
関連論文リスト
- FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文 参考訳(メタデータ) (2024-11-23T02:20:32Z) - VidComposition: Can MLLMs Analyze Compositions in Compiled Videos? [35.05305360406699]
VidCompositionは、マルチモーダル大言語モデル(MLLM)の映像合成理解能力を評価するためのベンチマークである。
これには、カメラの動き、アングル、ショットサイズ、物語構造、キャラクターの動作、感情など、様々な構成的な側面をカバーしている。
33個のオープンソースおよびプロプライエタリなMLLMを総合的に評価した結果,人的・モデル的能力の差は顕著であった。
論文 参考訳(メタデータ) (2024-11-17T06:23:46Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition [61.956088652094515]
視覚と言語モデル(VLM)は、驚くべきゼロショット認識能力を示した。
しかし、それらは視覚言語的構成性、特に言語的理解ときめ細かい画像テキストアライメントの課題に直面している。
本稿では,構成性と認識の複雑な関係について考察する。
論文 参考訳(メタデータ) (2024-06-13T17:58:39Z) - Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View [26.52297849056656]
視覚言語モデル(VLM)は、構成的推論に関して十分な知識を欠いている。
本稿では,VLMの脆弱性を構成的理解の異なる側面から評価するために,新しいゲーム理論的視点による評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T14:22:03Z) - Incorporating Structured Representations into Pretrained Vision &
Language Models Using Scene Graphs [79.64891686479213]
シーングラフ(SG)から学習する場合、視覚と言語モデル(VLM)を改善することができることを示す。
視覚面では、SG情報を予測するために訓練されたイメージトランスフォーマーに特別な「SG成分」を組み込む一方、テキスト側では、SGを使ってきめ細かなキャプションを生成する。
提案手法は,ZS能力を軽度に低下させるだけで,複数のデータセット上でのVLMの性能を向上する。
論文 参考訳(メタデータ) (2023-05-10T17:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。