論文の概要: MIMIC: Multimodal Inversion for Model Interpretation and Conceptualization
- arxiv url: http://arxiv.org/abs/2508.07833v1
- Date: Mon, 11 Aug 2025 10:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.045097
- Title: MIMIC: Multimodal Inversion for Model Interpretation and Conceptualization
- Title(参考訳): MIMIC:モデル解釈と概念化のためのマルチモーダルインバージョン
- Authors: Animesh Jain, Alexandros Stergiou,
- Abstract要約: 視覚言語モデル(VLM)の内部表現を可視化するMIMIC(Multimodal Inversion for Model Interpretation and Conceptualization)フレームワークを提案する。
MIMICは、VLMの自己回帰処理のために、ジョイントVLMベースの反転と特徴アライメントの目的を使用する。
可変長自由形VLM出力テキストに対して視覚概念を反転させることによりMIMICを定量的に定性的に評価する。
- 参考スコア(独自算出の注目度): 52.66401137323065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) encode multimodal inputs over large, complex, and difficult-to-interpret architectures, which limit transparency and trust. We propose a Multimodal Inversion for Model Interpretation and Conceptualization (MIMIC) framework to visualize the internal representations of VLMs by synthesizing visual concepts corresponding to internal encodings. MIMIC uses a joint VLM-based inversion and a feature alignment objective to account for VLM's autoregressive processing. It additionally includes a triplet of regularizers for spatial alignment, natural image smoothness, and semantic realism. We quantitatively and qualitatively evaluate MIMIC by inverting visual concepts over a range of varying-length free-form VLM output texts. Reported results include both standard visual quality metrics as well as semantic text-based metrics. To the best of our knowledge, this is the first model inversion approach addressing visual interpretations of VLM concepts.
- Abstract(参考訳): 視覚言語モデル(VLM)は、透明性と信頼を制限する、大きく、複雑で、解釈が難しいアーキテクチャ上のマルチモーダル入力を符号化する。
モデル解釈・概念化のためのマルチモーダル・インバージョン(MIMIC)フレームワークを提案し,内部符号化に対応する視覚概念を合成することにより,VLMの内部表現を可視化する。
MIMICは、VLMの自己回帰処理のために、ジョイントVLMベースの反転と特徴アライメントの目的を使用する。
さらに、空間アライメント、自然な画像の滑らかさ、セマンティックリアリズムのための正規化器のトリプルトが含まれている。
可変長自由形VLM出力テキストに対して視覚概念を反転させることによりMIMICを定量的に定性的に評価する。
報告された結果には、標準的な視覚的品質メトリクスとセマンティックテキストベースのメトリクスの両方が含まれている。
我々の知る限りでは、VLM概念の視覚的解釈に対処する最初のモデル反転アプローチである。
関連論文リスト
- The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer [68.71557348281007]
本稿では,単一変圧器統合多モーダル大言語モデル(MLLM)であるSAILを紹介する。
事前訓練された視覚変換器(ViT)に依存している既存のモジュール型MLLMとは異なり、SAILは別個の視覚エンコーダを必要としない。
我々は,SAILの特性(スケーラビリティ,クロスモーダル情報フローパターン,視覚表現能力など)をモジュール型MLLMと体系的に比較した。
論文 参考訳(メタデータ) (2025-04-14T17:50:20Z) - A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges [6.530386181196826]
VLM(Multimodal Vision Language Models)は、コンピュータビジョンと自然言語処理の共通点において、トランスフォーメーショントピックとして登場した。
研究の急速な進歩と様々なアプリケーションでの人気が高まる中、我々はVLMの総合的な調査を行っている。
論文 参考訳(メタデータ) (2025-01-04T04:59:33Z) - Optimizing Vision-Language Interactions Through Decoder-Only Models [4.219163079329444]
MUDAIFは視覚とテキストの入力をシームレスに統合する視覚言語モデルである。
効率性、柔軟性、クロスモーダルな理解が向上します。
45Mイメージテキストペアの大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2024-12-14T09:04:32Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。