Fugu-MT 論文翻訳(概要): MANTA: Cross-Modal Semantic Alignment and Information-Theoretic Optimization for Long-form Multimodal Understanding

論文の概要: MANTA: Cross-Modal Semantic Alignment and Information-Theoretic Optimization for Long-form Multimodal Understanding

arxiv url: http://arxiv.org/abs/2507.00068v1
Date: Sat, 28 Jun 2025 12:12:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:22:58.243512
Title: MANTA: Cross-Modal Semantic Alignment and Information-Theoretic Optimization for Long-form Multimodal Understanding
Title（参考訳）: MANTA:長期マルチモーダル理解のためのクロスモーダルセマンティックアライメントと情報理論最適化
Authors: Ziqi Zhong, Daniel Tang,
Abstract要約: MANTAは、視覚と聴覚の入力を構造化されたテキスト空間に統合し、大きな言語モデルでシームレスに処理するフレームワークである。 MANTAは,(1)情報理論最適化によるモダリティ間のセマンティックアライメント,(2)情報密度の適応時間同期,(3)マルチスケール理解のための階層的コンテンツ表現の4つの課題に対処する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While multi-modal learning has advanced significantly, current approaches often treat modalities separately, creating inconsistencies in representation and reasoning. We introduce MANTA (Multi-modal Abstraction and Normalization via Textual Alignment), a theoretically-grounded framework that unifies visual and auditory inputs into a structured textual space for seamless processing with large language models. MANTA addresses four key challenges: (1) semantic alignment across modalities with information-theoretic optimization, (2) adaptive temporal synchronization for varying information densities, (3) hierarchical content representation for multi-scale understanding, and (4) context-aware retrieval of sparse information from long sequences. We formalize our approach within a rigorous mathematical framework, proving its optimality for context selection under token constraints. Extensive experiments on the challenging task of Long Video Question Answering show that MANTA improves state-of-the-art models by up to 22.6% in overall accuracy, with particularly significant gains (27.3%) on videos exceeding 30 minutes. Additionally, we demonstrate MANTA's superiority on temporal reasoning tasks (23.8% improvement) and cross-modal understanding (25.1% improvement). Our framework introduces novel density estimation techniques for redundancy minimization while preserving rare signals, establishing new foundations for unifying multimodal representations through structured text.
Abstract（参考訳）: マルチモーダル学習は著しく進歩してきたが、現在のアプローチはしばしばモダリティを別々に扱い、表現と推論の不整合を生み出している。 MANTA(Multi-modal Abstraction and Normalization via Textual Alignment)は、視覚と聴覚の入力を構造化されたテキスト空間に統一し、大きな言語モデルでシームレスに処理する理論的な基盤となるフレームワークである。 MANTAは,(1)情報理論最適化によるモダリティ間のセマンティックアライメント,(2)情報密度の適応時間同期,(3)マルチスケール理解のための階層的コンテンツ表現,(4)長いシーケンスからのスパース情報のコンテキスト認識検索の4つの課題に対処する。我々は厳密な数学的枠組みの中で我々のアプローチを定式化し、トークン制約の下での文脈選択の最適性を証明した。 Long Video Question Answering の挑戦的な課題に関する広範な実験によると、MANTA は最先端のモデルを全体の精度で最大22.6%改善し、特に30分を超えるビデオでは顕著な増加(27.3%)を示した。さらに、マンタが時間的推論タスク(23.8%改善)と相互理解(25.1%改善)に優れていることを示す。本フレームワークでは, 冗長性最小化のための新しい密度推定手法を導入し, 構造化テキストによるマルチモーダル表現の統一のための新たな基盤を構築した。

関連論文リスト

FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models [18.73221445082855]
MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
論文参考訳（メタデータ） (2025-06-20T14:57:41Z)
Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D [107.69104331520677]
Contra4は、画像、オーディオ、ビデオ、および3Dの4つのモードにまたがる、対照的な相互モーダル推論のためのデータセットである。コントラ4は、人間の注釈付きキャプションとモデルの混合フィルタを組み合わせて高品質な監視を確実にし、174kのトレーニング例と2.3kの試験セットを手作業で検証する。タスク固有の微調整はベースラインと比較してパフォーマンスを56%向上させるが、最先端のモデルでは全体の56%の精度と4つのモダリティ設定で42%の精度しか達成していない。
論文参考訳（メタデータ） (2025-06-02T03:12:13Z)
Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-03-12T05:28:24Z)
Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文参考訳（メタデータ） (2024-08-30T03:28:40Z)
Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文参考訳（メタデータ） (2024-03-08T09:16:47Z)
X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文参考訳（メタデータ） (2023-11-30T18:43:51Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文参考訳（メタデータ） (2020-11-03T11:18:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。