論文の概要: MANTA: Cross-Modal Semantic Alignment and Information-Theoretic Optimization for Long-form Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2507.00068v1
- Date: Sat, 28 Jun 2025 12:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.243512
- Title: MANTA: Cross-Modal Semantic Alignment and Information-Theoretic Optimization for Long-form Multimodal Understanding
- Title(参考訳): MANTA:長期マルチモーダル理解のためのクロスモーダルセマンティックアライメントと情報理論最適化
- Authors: Ziqi Zhong, Daniel Tang,
- Abstract要約: MANTAは、視覚と聴覚の入力を構造化されたテキスト空間に統合し、大きな言語モデルでシームレスに処理するフレームワークである。
MANTAは,(1)情報理論最適化によるモダリティ間のセマンティックアライメント,(2)情報密度の適応時間同期,(3)マルチスケール理解のための階層的コンテンツ表現の4つの課題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multi-modal learning has advanced significantly, current approaches often treat modalities separately, creating inconsistencies in representation and reasoning. We introduce MANTA (Multi-modal Abstraction and Normalization via Textual Alignment), a theoretically-grounded framework that unifies visual and auditory inputs into a structured textual space for seamless processing with large language models. MANTA addresses four key challenges: (1) semantic alignment across modalities with information-theoretic optimization, (2) adaptive temporal synchronization for varying information densities, (3) hierarchical content representation for multi-scale understanding, and (4) context-aware retrieval of sparse information from long sequences. We formalize our approach within a rigorous mathematical framework, proving its optimality for context selection under token constraints. Extensive experiments on the challenging task of Long Video Question Answering show that MANTA improves state-of-the-art models by up to 22.6% in overall accuracy, with particularly significant gains (27.3%) on videos exceeding 30 minutes. Additionally, we demonstrate MANTA's superiority on temporal reasoning tasks (23.8% improvement) and cross-modal understanding (25.1% improvement). Our framework introduces novel density estimation techniques for redundancy minimization while preserving rare signals, establishing new foundations for unifying multimodal representations through structured text.
- Abstract(参考訳): マルチモーダル学習は著しく進歩してきたが、現在のアプローチはしばしばモダリティを別々に扱い、表現と推論の不整合を生み出している。
MANTA(Multi-modal Abstraction and Normalization via Textual Alignment)は、視覚と聴覚の入力を構造化されたテキスト空間に統一し、大きな言語モデルでシームレスに処理する理論的な基盤となるフレームワークである。
MANTAは,(1)情報理論最適化によるモダリティ間のセマンティックアライメント,(2)情報密度の適応時間同期,(3)マルチスケール理解のための階層的コンテンツ表現,(4)長いシーケンスからのスパース情報のコンテキスト認識検索の4つの課題に対処する。
我々は厳密な数学的枠組みの中で我々のアプローチを定式化し、トークン制約の下での文脈選択の最適性を証明した。
Long Video Question Answering の挑戦的な課題に関する広範な実験によると、MANTA は最先端のモデルを全体の精度で最大22.6%改善し、特に30分を超えるビデオでは顕著な増加(27.3%)を示した。
さらに、マンタが時間的推論タスク(23.8%改善)と相互理解(25.1%改善)に優れていることを示す。
本フレームワークでは, 冗長性最小化のための新しい密度推定手法を導入し, 構造化テキストによるマルチモーダル表現の統一のための新たな基盤を構築した。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D [107.69104331520677]
Contra4は、画像、オーディオ、ビデオ、および3Dの4つのモードにまたがる、対照的な相互モーダル推論のためのデータセットである。
コントラ4は、人間の注釈付きキャプションとモデルの混合フィルタを組み合わせて高品質な監視を確実にし、174kのトレーニング例と2.3kの試験セットを手作業で検証する。
タスク固有の微調整はベースラインと比較してパフォーマンスを56%向上させるが、最先端のモデルでは全体の56%の精度と4つのモダリティ設定で42%の精度しか達成していない。
論文 参考訳(メタデータ) (2025-06-02T03:12:13Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。