Fugu-MT 論文翻訳(概要): M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge Base

論文の概要: M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge Base

arxiv url: http://arxiv.org/abs/2312.10417v1
Date: Sat, 16 Dec 2023 11:06:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 16:40:13.020523
Title: M2ConceptBase: A Fine-grained Aligned Multi-modal Conceptual Knowledge Base
Title（参考訳）: M2ConceptBase: きめ細かい多モード概念知識ベース
Authors: Zhiwei Zha, Jiaan Wang, Zhixu Li, Xiangru Zhu, Wei Song, Yanghua Xiao
Abstract要約: 我々はM2ConceptBaseという名前のマルチモーダルな概念知識ベースを提案し、画像と概念の微妙なアライメントを提供する。具体的には、M2ConceptBaseは概念をノードとしてモデル化し、それぞれに関連する画像と詳細なテキストを関連付ける。最先端の大規模言語モデルでは,シンボル接地アプローチを通さない概念の記述を補足する。
参考スコア（独自算出の注目度）: 65.20833158693705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large multi-modal models (LMMs) have demonstrated promising intelligence owing to the rapid development of pre-training techniques. However, their fine-grained cross-modal alignment ability is constrained by the coarse alignment in image-text pairs. This limitation hinders awareness of fine-grained concepts, resulting in sub-optimal performance. In this paper, we propose a multi-modal conceptual knowledge base, named M2ConceptBase, which aims to provide fine-grained alignment between images and concepts. Specifically, M2ConceptBase models concepts as nodes, associating each with relevant images and detailed text, thereby enhancing LMMs' cross-modal alignment with rich conceptual knowledge. To collect concept-image and concept-description alignments, we propose a context-aware multi-modal symbol grounding approach that considers context information in existing large-scale image-text pairs with respect to each concept. A cutting-edge large language model supplements descriptions for concepts not grounded via our symbol grounding approach. Finally, our M2ConceptBase contains more than 951K images and 152K concepts, each associating with an average of 6.27 images and a single detailed description. We conduct experiments on the OK-VQA task, demonstrating that our M2ConceptBase facilitates the model in achieving state-of-the-art performance. Moreover, we construct a comprehensive benchmark to evaluate the concept understanding of LMMs and show that M2ConceptBase could effectively improve LMMs' concept understanding and cross-modal alignment abilities.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は,事前学習技術の急速な発展により,有望な知性を示した。しかし、細粒度のクロスモーダルアライメント能力は、画像テキストペアの粗いアライメントによって制限される。この制限は、きめ細かい概念の認識を妨げ、結果として準最適性能をもたらす。本稿では,画像と概念の粒度の調整を目的としたマルチモーダル概念知識ベースであるm2conceptbaseを提案する。具体的には、M2ConceptBaseは、概念をノードとしてモデル化し、関連する画像と詳細なテキストとを関連付けることにより、LMMのクロスモーダルアライメントと豊富な概念知識を向上する。概念イメージと概念記述のアライメントを収集するために,既存の大規模画像テキストペアのコンテキスト情報を考慮したコンテキスト認識型マルチモーダルシンボル基底手法を提案する。最先端の大規模言語モデルでは,シンボル接地アプローチによる概念記述を補完する。最後に、私たちのM2ConceptBaseには951K以上の画像と152Kのコンセプトが含まれており、それぞれが平均6.27のイメージと1つの詳細な記述に関連付けられています。我々はOK-VQAタスクの実験を行い、M2ConceptBaseが最先端の性能を達成する上でモデルを促進することを示す。さらに、LMMの概念理解を評価するための総合的なベンチマークを構築し、M2ConceptBaseがLMMの概念理解と相互アライメント能力を効果的に改善できることを示す。

関連論文リスト

MCM: Multi-layer Concept Map for Efficient Concept Learning from Masked Images [5.09981114473162]
マスク画像に基づく効率的な概念学習法を考案する最初の試みであるMCM(Multi-layer Concept Map)を提案する。特に,異なるエンコーダ層とデコーダ層との相関関係を確立することで,非対称な概念学習アーキテクチャを導入する。 MCMは、全画像パッチの75%未満をトレーニングすることで、計算コストを大幅に削減する。
論文参考訳（メタデータ） (2025-02-01T01:45:49Z)
V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer [19.177297480709512]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、イメージを人間の理解可能な概念に変換することによって、固有の解釈性を提供する。最近のアプローチでは、概念ボトルネックを構築するために、大きな言語モデルの知識を活用している。本研究では,CBMをマルチモーダルモデルから直接構築することで,これらの問題を回避する。
論文参考訳（メタデータ） (2025-01-09T05:12:38Z)
OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文参考訳（メタデータ） (2024-12-16T18:59:52Z)
CusConcept: Customized Visual Concept Decomposition with Diffusion Models [13.95568624067449]
ベクトルを埋め込んだカスタマイズされた視覚概念を抽出する2段階のフレームワークCusConceptを提案する。最初の段階では、CusConceptは語彙誘導概念分解機構を採用している。第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。
論文参考訳（メタデータ） (2024-10-01T04:41:44Z)
ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty [52.15933752463479]
ConceptMixはスケーラブルで、制御可能で、カスタマイズ可能なベンチマークです。テキスト・ツー・イメージ(T2I)モデルの合成生成能力を自動的に評価する。いくつかのモデル、特に開モデルの性能は k の増加とともに劇的に低下する。
論文参考訳（メタデータ） (2024-08-26T15:08:12Z)
A Concept-Based Explainability Framework for Large Multimodal Models [52.37626977572413]
本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文参考訳（メタデータ） (2024-06-12T10:48:53Z)
Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T07:28:37Z)
NEUCORE: Neural Concept Reasoning for Composed Image Retrieval [16.08214739525615]
NEUral Concept Reasoning モデルを提案する。提案手法は3つのデータセットで評価し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-10-02T17:21:25Z)
Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-08T16:45:56Z)
ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文参考訳（メタデータ） (2023-06-07T18:00:38Z)
Automatic Modeling of Social Concepts Evoked by Art Images as Multimodal Frames [1.4502611532302037]
非物理的オブジェクトを参照する社会的概念は、視覚データの内容を記述、インデックス化、クエリするための強力なツールである。本稿では,社会概念をマルチモーダル・フレームとして表現するためのソフトウェア手法を提案する。本手法は,視覚芸術作品から興味ある概念をタグ付けしたマルチモーダル特徴の抽出,解析,統合に焦点を当てる。
論文参考訳（メタデータ） (2021-10-14T14:50:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。