Fugu-MT 論文翻訳(概要): A Concept-Based Explainability Framework for Large Multimodal Models

論文の概要: A Concept-Based Explainability Framework for Large Multimodal Models

arxiv url: http://arxiv.org/abs/2406.08074v1
Date: Wed, 12 Jun 2024 10:48:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 17:24:58.041817
Title: A Concept-Based Explainability Framework for Large Multimodal Models
Title（参考訳）: 大規模マルチモーダルモデルのための概念ベース説明可能性フレームワーク
Authors: Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Alasdair Newson, Matthieu Cord,
Abstract要約: 本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
参考スコア（独自算出の注目度）: 52.37626977572413
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large multimodal models (LMMs) combine unimodal encoders and large language models (LLMs) to perform multimodal tasks. Despite recent advancements towards the interpretability of these models, understanding internal representations of LMMs remains largely a mystery. In this paper, we present a novel framework for the interpretation of LMMs. We propose a dictionary learning based approach, applied to the representation of tokens. The elements of the learned dictionary correspond to our proposed concepts. We show that these concepts are well semantically grounded in both vision and text. Thus we refer to these as "multi-modal concepts". We qualitatively and quantitatively evaluate the results of the learnt concepts. We show that the extracted multimodal concepts are useful to interpret representations of test samples. Finally, we evaluate the disentanglement between different concepts and the quality of grounding concepts visually and textually. We will publicly release our code.
Abstract（参考訳）: 大型マルチモーダルモデル (LMM) は、単一モーダルエンコーダと大型言語モデル (LLM) を組み合わせてマルチモーダルタスクを実行する。これらのモデルの解釈可能性に対する最近の進歩にもかかわらず、LMMの内部表現を理解することは、大半が謎のままである。本稿では,LMMの解釈のための新しい枠組みを提案する。本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。学習辞書の要素は提案した概念に対応している。これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。したがって、これらを「マルチモーダルの概念」と呼ぶ。学習した概念の結果を質的に定量的に評価する。抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。最後に,異なる概念間の絡み合いと,基礎概念の質を視覚的に,テキスト的に評価する。コードを公開します。

関連論文リスト

Can Large Vision-Language Models Understand Multimodal Sarcasm? [14.863320201956963]
サルカスム(Sarcasm)は、リテラルと意図された意味の相違を含む複雑な言語現象である。マルチモーダルサルカズム解析(MSA)タスクにおける大規模視覚言語モデル(LVLM)の評価を行った。深度オブジェクト抽出と外部概念知識を統合した学習自由フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-05T17:05:11Z)
V2C-CBM: Building Concept Bottlenecks with Vision-to-Concept Tokenizer [19.177297480709512]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、イメージを人間の理解可能な概念に変換することによって、固有の解釈性を提供する。最近のアプローチでは、概念ボトルネックを構築するために、大きな言語モデルの知識を活用している。本研究では,CBMをマルチモーダルモデルから直接構築することで,これらの問題を回避する。
論文参考訳（メタデータ） (2025-01-09T05:12:38Z)
Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文参考訳（メタデータ） (2025-01-06T13:37:13Z)
Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文参考訳（メタデータ） (2024-12-11T23:36:20Z)
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models [55.25892137362187]
MLLMのためのMMGiCアノテーション(Multimodal Multi-Grained Concept Annotation)を特徴とする新しいデータセットを提案する。分析の結果,構造化テンプレートと汎用MLLMフレームワークの下で,多義的な概念アノテーションが相互に統合され,補完されることが明らかとなった。さらに,12のマルチモーダル理解および生成ベンチマークにおいて,MMGiCと画像キャプチャデータとの公正な比較と効果的な協調関係を検証し,我々の仮説を検証した。
論文参考訳（メタデータ） (2024-12-08T13:45:44Z)
MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception [24.406224705072763]
Mutually Reinforced Multimodal Large Language Model (MR-MLLM) は視覚知覚とマルチモーダル理解を高める新しいフレームワークである。まず、視覚モデルからの詳細な視覚入力と言語モデルの言語深度を調和させるために、共有クエリ融合機構を提案する。第2に、視覚知覚出力から新たなモダリティを取り入れた、知覚強化型クロスモーダル積分法を提案する。
論文参考訳（メタデータ） (2024-06-22T07:10:36Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
M^2ConceptBase: A Fine-Grained Aligned Concept-Centric Multimodal Knowledge Base [61.53959791360333]
最初の概念中心型マルチモーダル知識ベース(MMKB)であるM2ConceptBaseを紹介する。画像テキストデータセットのコンテキスト情報を用いて,概念イメージと概念記述ペアを協調するコンテキスト認識手法を提案する。人間の研究は95%以上のアライメントの精度を確認し、その品質を裏付けている。
論文参考訳（メタデータ） (2023-12-16T11:06:11Z)
Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-08T20:41:18Z)
Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文参考訳（メタデータ） (2023-11-03T12:19:22Z)
The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文参考訳（メタデータ） (2023-06-01T17:57:08Z)
GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。 GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文参考訳（メタデータ） (2022-05-31T08:53:53Z)
Discovering Latent Concepts Learned in BERT [21.760620298330235]
事前学習されたBERTモデルに潜伏概念が存在するかを検討する。また、174のコンセプトラベルと1Mのアノテーション付きインスタンスからなる新しいBERT ConceptNetデータセット(BCN)もリリースした。
論文参考訳（メタデータ） (2022-05-15T09:45:34Z)
A First Look: Towards Explainable TextVQA Models via Visual and Textual Explanations [3.7638008383533856]
MTXNetは、エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャで、マルチモーダルな説明を生成する。マルチモーダルな説明によるトレーニングは、CIDErスコアで最大7%、IoUでは2%を超えることが示されています。また,生成したマルチモーダル説明を利用した実世界の電子商取引アプリケーションについても述べる。
論文参考訳（メタデータ） (2021-04-29T00:36:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。