論文の概要: Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?
- arxiv url: http://arxiv.org/abs/2510.21842v1
- Date: Wed, 22 Oct 2025 14:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.607768
- Title: Modal Aphasia: Can Unified Multimodal Models Describe Images From Memory?
- Title(参考訳): モーダル失語症:マルチモーダルモデルの記憶からのイメージ記述は可能か?
- Authors: Michael Aerni, Joshua Swanson, Kristina Nikolić, Florian Tramèr,
- Abstract要約: 主要フロンティアモデルでは、象徴的な映画作品のほぼ完璧な再現を生成できるが、テキスト記述を依頼すると重要な詳細を混乱させる。
実験により,現在の統合マルチモーダルモデルの基本的な性質として,モーダル失語が確実に出現することが確認された。
実際には、モーダル失語は、あるモダリティに適用されたセーフガードが他のモダリティでアクセス可能な有害な概念を残す可能性があるため、AI安全フレームワークの脆弱性を導入する可能性がある。
- 参考スコア(独自算出の注目度): 30.394546471042137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present modal aphasia, a systematic dissociation in which current unified multimodal models accurately memorize concepts visually but fail to articulate them in writing, despite being trained on images and text simultaneously. For one, we show that leading frontier models can generate near-perfect reproductions of iconic movie artwork, but confuse crucial details when asked for textual descriptions. We corroborate those findings through controlled experiments on synthetic datasets in multiple architectures. Our experiments confirm that modal aphasia reliably emerges as a fundamental property of current unified multimodal models, not just as a training artifact. In practice, modal aphasia can introduce vulnerabilities in AI safety frameworks, as safeguards applied to one modality may leave harmful concepts accessible in other modalities. We demonstrate this risk by showing how a model aligned solely on text remains capable of generating unsafe images.
- Abstract(参考訳): 画像とテキストを同時に訓練しながら, 概念を視覚的に正確に記憶するが, 文章中では明瞭に表現できない, 統合型マルチモーダルモデルの体系的解離について述べる。
ひとつは、主要なフロンティアモデルが、象徴的な映画作品のほぼ完璧な再現を生成できることを示すが、テキスト記述を依頼すると、重要な詳細を混乱させる。
複数のアーキテクチャにおける合成データセットの制御実験により,これらの知見を裏付ける。
本実験により, モーダル失語は, トレーニングアーティファクトだけでなく, 現行の統一マルチモーダルモデルの基本的な特性として確実に現れることが確認された。
実際には、モーダル失語は、あるモダリティに適用されたセーフガードが他のモダリティでアクセス可能な有害な概念を残す可能性があるため、AI安全フレームワークの脆弱性を導入する可能性がある。
テキストのみにアライメントされたモデルが、安全でない画像を生成する能力を持つことを示すことで、このリスクを実証する。
関連論文リスト
- Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation [55.2480439325792]
自律運転や医用画像解析などの安全クリティカルなアプリケーションは、厳格なテストのために広範なマルチモーダルデータを必要とする。
本研究は, 自律運転における合成データ生成法と, 医療画像解析法であるMObIとAnydoorMedの2つの新しい手法を紹介する。
論文 参考訳(メタデータ) (2025-07-30T19:43:47Z) - Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Not Every Image is Worth a Thousand Words: Quantifying Originality in Stable Diffusion [21.252145402613472]
本研究は,テキスト・ツー・イメージ(T2I)生成拡散モデルにおける原点の定量化という課題に対処する。
本稿では,テキストのインバージョンを利用して画像の原点度をモデルによる再構成に必要なトークン数に基づいて測定する手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T14:42:02Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。