論文の概要: Probing Cross-modal Information Hubs in Audio-Visual LLMs
- arxiv url: http://arxiv.org/abs/2605.10815v2
- Date: Tue, 12 May 2026 02:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.139391
- Title: Probing Cross-modal Information Hubs in Audio-Visual LLMs
- Title(参考訳): オーディオ・ビジュアルLLMにおけるクロスモーダル情報ハブの提案
- Authors: Jihoo Jung, Chaeyoung Jung, Ji-Hoon Kim, Joon Son Chung,
- Abstract要約: オーディオ視覚大言語モデル(AVLLM)は、音声、視覚、テキストのモダリティを共同で推論できる強力なアーキテクチャとして登場した。
本稿では,一方のモダリティから派生した情報を他方のモダリティのトークン表現に符号化する方法について検討する。
本研究では,クロスモーダルシンクトークン内の統合型クロスモーダル情報への依存を促すことにより,トレーニング不要な幻覚緩和手法を提案する。
- 参考スコア(独自算出の注目度): 35.95951982211213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio-visual large language models (AVLLMs) have recently emerged as a powerful architecture capable of jointly reasoning over audio, visual, and textual modalities. In AVLLMs, the bidirectional interaction between audio and video modalities introduces intricate processing dynamics, necessitating a deeper understanding of their internal mechanisms. However, unlike extensively studied text-only or large vision language models, the internal workings of AVLLMs remain largely unexplored. In this paper, we focus on cross-modal information flow between audio and visual modalities in AVLLMs, investigating where information derived from one modality is encoded within the token representations of the other modality. Through an analysis of multiple recent AVLLMs, we uncover two common findings. First, AVLLMs primarily encode integrated audio-visual information in sink tokens. Second, sink tokens do not uniformly hold cross-modal information. Instead, a distinct subset of sink tokens, which we term cross-modal sink tokens, specializes in storing such information. Based on these findings, we further propose a simple training-free hallucination mitigation method by encouraging reliance on integrated cross-modal information within cross-modal sink tokens. Our code is available at https://github.com/kaistmm/crossmodal-hub.
- Abstract(参考訳): オーディオ視覚大言語モデル(AVLLM)は、最近、音声、視覚、テキストのモダリティを共同で推論できる強力なアーキテクチャとして登場した。
AVLLMでは、オーディオとビデオの双方向の相互作用は複雑な処理力学を導入し、内部メカニズムをより深く理解する必要がある。
しかし、広く研究されているテキストオンリーや大きな視覚言語モデルとは異なり、AVLLMの内部構造はほとんど解明されていない。
本稿では,AVLLMにおける音声と視覚のモーダル間の相互モーダル情報の流れに着目し,他のモーダルのトークン表現において,あるモーダルから派生した情報がどこに符号化されているかを検討する。
AVLLMを複数回分析した結果,2つの共通点が判明した。
まず、AVLLMはシンクトークンに統合されたオーディオ視覚情報をエンコードする。
第二に、シンクトークンはクロスモーダル情報を均一に保持しない。
代わりに、クロスモーダルシンクトークンと呼ばれるシンクトークンの別個のサブセットは、そのような情報を格納することに特化している。
これらの知見に基づいて,クロスモーダルシンクトークンにおけるクロスモーダル情報への依存を促すことで,簡易なトレーニング自由幻覚緩和法を提案する。
私たちのコードはhttps://github.com/kaistmm/crossmodal-hub.comで利用可能です。
関連論文リスト
- Do Audio-Visual Large Language Models Really See and Hear? [66.8531220331223]
我々は音声と視覚機能がどのように進化し、最終的なテキスト出力を生成するためにAVLLMの異なる層を融合するかを分析する。
AVLLMの基本的なモダリティバイアスを明らかにし、マルチモーダルLLMがオーディオとビジョンをどのように統合するかに関する新しい力学的な洞察を提供する。
論文 参考訳(メタデータ) (2026-04-03T00:48:49Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。
これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。
提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文 参考訳(メタデータ) (2025-06-13T03:19:47Z) - Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs [7.03771340666549]
MLLM(Multimodal Large Language Models)における視覚言語ミスアライメントは重要な課題である。
本稿では,MMA(Modality-mutual attention)に因果的注意を開放し,画像トークンがテキストトークンに参加することを可能にする新しいMLLMであるMapleLeaf AKIを提案する。
我々のMMA設計は汎用的であり、様々なモダリティにまたがるアプリケーションを可能にし、多様なマルチモーダルシナリオに対応できるようにスケーラブルである。
論文 参考訳(メタデータ) (2025-03-04T13:18:33Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所対応特徴 (LCF) 変調を適用し、モダリティ共有セマンティクスに焦点を合わせるために単調エンコーダを強制する。
さらに、データ駆動方式で注意領域を動的に調整するローカル適応クロスモーダル(LAC)インタラクションをカスタマイズする。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。