論文の概要: M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge
Base
- arxiv url: http://arxiv.org/abs/2312.10417v1
- Date: Sat, 16 Dec 2023 11:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:40:13.020523
- Title: M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge
Base
- Title(参考訳): M2ConceptBase: きめ細かい多モード概念知識ベース
- Authors: Zhiwei Zha, Jiaan Wang, Zhixu Li, Xiangru Zhu, Wei Song, Yanghua Xiao
- Abstract要約: 我々はM2ConceptBaseという名前のマルチモーダルな概念知識ベースを提案し、画像と概念の微妙なアライメントを提供する。
具体的には、M2ConceptBaseは概念をノードとしてモデル化し、それぞれに関連する画像と詳細なテキストを関連付ける。
最先端の大規模言語モデルでは,シンボル接地アプローチを通さない概念の記述を補足する。
- 参考スコア(独自算出の注目度): 65.20833158693705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multi-modal models (LMMs) have demonstrated promising intelligence
owing to the rapid development of pre-training techniques. However, their
fine-grained cross-modal alignment ability is constrained by the coarse
alignment in image-text pairs. This limitation hinders awareness of
fine-grained concepts, resulting in sub-optimal performance. In this paper, we
propose a multi-modal conceptual knowledge base, named M2ConceptBase, which
aims to provide fine-grained alignment between images and concepts.
Specifically, M2ConceptBase models concepts as nodes, associating each with
relevant images and detailed text, thereby enhancing LMMs' cross-modal
alignment with rich conceptual knowledge. To collect concept-image and
concept-description alignments, we propose a context-aware multi-modal symbol
grounding approach that considers context information in existing large-scale
image-text pairs with respect to each concept. A cutting-edge large language
model supplements descriptions for concepts not grounded via our symbol
grounding approach. Finally, our M2ConceptBase contains more than 951K images
and 152K concepts, each associating with an average of 6.27 images and a single
detailed description. We conduct experiments on the OK-VQA task, demonstrating
that our M2ConceptBase facilitates the model in achieving state-of-the-art
performance. Moreover, we construct a comprehensive benchmark to evaluate the
concept understanding of LMMs and show that M2ConceptBase could effectively
improve LMMs' concept understanding and cross-modal alignment abilities.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は,事前学習技術の急速な発展により,有望な知性を示した。
しかし、細粒度のクロスモーダルアライメント能力は、画像テキストペアの粗いアライメントによって制限される。
この制限は、きめ細かい概念の認識を妨げ、結果として準最適性能をもたらす。
本稿では,画像と概念の粒度の調整を目的としたマルチモーダル概念知識ベースであるm2conceptbaseを提案する。
具体的には、M2ConceptBaseは、概念をノードとしてモデル化し、関連する画像と詳細なテキストとを関連付けることにより、LMMのクロスモーダルアライメントと豊富な概念知識を向上する。
概念イメージと概念記述のアライメントを収集するために,既存の大規模画像テキストペアのコンテキスト情報を考慮したコンテキスト認識型マルチモーダルシンボル基底手法を提案する。
最先端の大規模言語モデルでは,シンボル接地アプローチによる概念記述を補完する。
最後に、私たちのM2ConceptBaseには951K以上の画像と152Kのコンセプトが含まれており、それぞれが平均6.27のイメージと1つの詳細な記述に関連付けられています。
我々はOK-VQAタスクの実験を行い、M2ConceptBaseが最先端の性能を達成する上でモデルを促進することを示す。
さらに、LMMの概念理解を評価するための総合的なベンチマークを構築し、M2ConceptBaseがLMMの概念理解と相互アライメント能力を効果的に改善できることを示す。
関連論文リスト
- CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。
最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。
第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文 参考訳(メタデータ) (2024-10-01T04:41:44Z) - ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty [52.15933752463479]
ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。
テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。
いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
論文 参考訳(メタデータ) (2024-08-26T15:08:12Z) - A Concept-Based Explainability Framework for Large Multimodal Models [52.37626977572413]
本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。
これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。
抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文 参考訳(メタデータ) (2024-06-12T10:48:53Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - NEUCORE: Neural Concept Reasoning for Composed Image Retrieval [16.08214739525615]
NEUral Concept Reasoning モデルを提案する。
提案手法は3つのデータセットで評価し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-10-02T17:21:25Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal
Frames [1.4502611532302037]
非物理的オブジェクトを参照する社会的概念は、視覚データの内容を記述、インデックス化、クエリするための強力なツールである。
本稿では,社会概念をマルチモーダル・フレームとして表現するためのソフトウェア手法を提案する。
本手法は,視覚芸術作品から興味ある概念をタグ付けしたマルチモーダル特徴の抽出,解析,統合に焦点を当てる。
論文 参考訳(メタデータ) (2021-10-14T14:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。