論文の概要: M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge
Base
- arxiv url: http://arxiv.org/abs/2312.10417v1
- Date: Sat, 16 Dec 2023 11:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:40:13.020523
- Title: M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge
Base
- Title(参考訳): M2ConceptBase: きめ細かい多モード概念知識ベース
- Authors: Zhiwei Zha, Jiaan Wang, Zhixu Li, Xiangru Zhu, Wei Song, Yanghua Xiao
- Abstract要約: 我々はM2ConceptBaseという名前のマルチモーダルな概念知識ベースを提案し、画像と概念の微妙なアライメントを提供する。
具体的には、M2ConceptBaseは概念をノードとしてモデル化し、それぞれに関連する画像と詳細なテキストを関連付ける。
最先端の大規模言語モデルでは,シンボル接地アプローチを通さない概念の記述を補足する。
- 参考スコア(独自算出の注目度): 65.20833158693705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multi-modal models (LMMs) have demonstrated promising intelligence
owing to the rapid development of pre-training techniques. However, their
fine-grained cross-modal alignment ability is constrained by the coarse
alignment in image-text pairs. This limitation hinders awareness of
fine-grained concepts, resulting in sub-optimal performance. In this paper, we
propose a multi-modal conceptual knowledge base, named M2ConceptBase, which
aims to provide fine-grained alignment between images and concepts.
Specifically, M2ConceptBase models concepts as nodes, associating each with
relevant images and detailed text, thereby enhancing LMMs' cross-modal
alignment with rich conceptual knowledge. To collect concept-image and
concept-description alignments, we propose a context-aware multi-modal symbol
grounding approach that considers context information in existing large-scale
image-text pairs with respect to each concept. A cutting-edge large language
model supplements descriptions for concepts not grounded via our symbol
grounding approach. Finally, our M2ConceptBase contains more than 951K images
and 152K concepts, each associating with an average of 6.27 images and a single
detailed description. We conduct experiments on the OK-VQA task, demonstrating
that our M2ConceptBase facilitates the model in achieving state-of-the-art
performance. Moreover, we construct a comprehensive benchmark to evaluate the
concept understanding of LMMs and show that M2ConceptBase could effectively
improve LMMs' concept understanding and cross-modal alignment abilities.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は,事前学習技術の急速な発展により,有望な知性を示した。
しかし、細粒度のクロスモーダルアライメント能力は、画像テキストペアの粗いアライメントによって制限される。
この制限は、きめ細かい概念の認識を妨げ、結果として準最適性能をもたらす。
本稿では,画像と概念の粒度の調整を目的としたマルチモーダル概念知識ベースであるm2conceptbaseを提案する。
具体的には、M2ConceptBaseは、概念をノードとしてモデル化し、関連する画像と詳細なテキストとを関連付けることにより、LMMのクロスモーダルアライメントと豊富な概念知識を向上する。
概念イメージと概念記述のアライメントを収集するために,既存の大規模画像テキストペアのコンテキスト情報を考慮したコンテキスト認識型マルチモーダルシンボル基底手法を提案する。
最先端の大規模言語モデルでは,シンボル接地アプローチによる概念記述を補完する。
最後に、私たちのM2ConceptBaseには951K以上の画像と152Kのコンセプトが含まれており、それぞれが平均6.27のイメージと1つの詳細な記述に関連付けられています。
我々はOK-VQAタスクの実験を行い、M2ConceptBaseが最先端の性能を達成する上でモデルを促進することを示す。
さらに、LMMの概念理解を評価するための総合的なベンチマークを構築し、M2ConceptBaseがLMMの概念理解と相互アライメント能力を効果的に改善できることを示す。
関連論文リスト
- Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion
Model [69.89451490936652]
テキスト・ツー・イメージ(TTI)モデルでは、複雑で想像力のあるシーンの高解像度画像を生成するという印象的な結果が示されている。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - InternLM-XComposer2: Mastering Free-form Text-Image Composition and
Comprehension in Vision-Language Large Model [108.42241250772643]
InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。
このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。
InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-01-29T18:59:02Z) - Hierarchical Concept Discovery Models: A Concept Pyramid Scheme [11.138948381367133]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
私たちのゴールは、人間の理解可能な概念に関して、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することです。
この枠組みの中では、概念情報は全体像と一般的な非構造化概念との類似性にのみ依存しない。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - NEUCORE: Neural Concept Reasoning for Composed Image Retrieval [16.08214739525615]
NEUral Concept Reasoning モデルを提案する。
提案手法は3つのデータセットで評価し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-10-02T17:21:25Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Multi-dimensional concept discovery (MCD): A unifying framework with
completeness guarantees [1.9465727478912072]
本稿では,概念レベルの完全性関係を満たす従来のアプローチの拡張として,多次元概念発見(MCD)を提案する。
より制約のある概念定義に対するMDDの優位性を実証的に実証する。
論文 参考訳(メタデータ) (2023-01-27T18:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。