論文の概要: UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark
- arxiv url: http://arxiv.org/abs/2603.05075v1
- Date: Thu, 05 Mar 2026 11:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.20977
- Title: UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark
- Title(参考訳): UniM:Unified Any-to-Anyインターリーブマルチモーダルベンチマーク
- Authors: Yanlin Li, Minghui Guo, Kaiwen Zhang, Shize Zhang, Yiran Zhao, Haodong Li, Congyue Zhou, Weijie Zheng, Yushen Yan, Shengqiong Wu, Wei Ji, Lei Cui, Furu Wei, Hao Fei, Mong-Li Lee, Wynne Hsu,
- Abstract要約: 本稿では,Unified Any-to-Any Interleaved MultimodalデータセットであるUniMベンチマークを紹介する。
UniMには30ドメインにわたる31Kの高品質インスタンスと7つの代表モダリティが含まれている。
セマンティック・コヒーレンス(Semantic Correctness & Generation Quality)、応答構造整合性(Re Response Structure Integrity)、インターリーブド・コヒーレンス(Interleaved Coherence)という3次元のモデルを評価する。
- 参考スコア(独自算出の注目度): 72.37370242707432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In real-world multimodal applications, systems usually need to comprehend arbitrarily combined and interleaved multimodal inputs from users, while also generating outputs in any interleaved multimedia form. This capability defines the goal of any-to-any interleaved multimodal learning under a unified paradigm of understanding and generation, posing new challenges and opportunities for advancing Multimodal Large Language Models (MLLMs). To foster and benchmark this capability, this paper introduces the UniM benchmark, the first Unified Any-to-Any Interleaved Multimodal dataset. UniM contains 31K high-quality instances across 30 domains and 7 representative modalities: text, image, audio, video, document, code, and 3D, each requiring multiple intertwined reasoning and generation capabilities. We further introduce the UniM Evaluation Suite, which assesses models along three dimensions: Semantic Correctness & Generation Quality, Response Structure Integrity, and Interleaved Coherence. In addition, we propose UniMA, an agentic baseline model equipped with traceable reasoning for structured interleaved generation. Comprehensive experiments demonstrate the difficulty of UniM and highlight key challenges and directions for advancing unified any-to-any multimodal intelligence. The project page is https://any2any-mllm.github.io/unim.
- Abstract(参考訳): 現実世界のマルチモーダルアプリケーションでは、システムは通常、ユーザからの任意の組み合わせとインターリーブされたマルチモーダル入力を理解し、インターリーブされたマルチメディア形式で出力を生成する必要がある。
この能力は、理解と生成の統一パラダイムの下で、いかなるインターリーブなマルチモーダル学習の目標を定義し、マルチモーダル大規模言語モデル(MLLM)を前進させる新たな課題と機会を提起する。
この能力を育成し、ベンチマークするために、最初のUnified Any-to-Any Interleaved MultimodalデータセットであるUniMベンチマークを導入する。
UniMには、30ドメインにわたる31Kの高品質なインスタンスと、テキスト、画像、オーディオ、ビデオ、ドキュメント、コード、および3Dの7つの代表的なモダリティが含まれており、それぞれに複数の相互接続の推論と生成機能が必要である。
さらに、セマンティック・コヒーレンス(Semantic Correctness & Generation Quality)、応答構造整合性(Re Response Structure Integrity)、インターリーブド・コヒーレンス(Interleaved Coherence)という3次元のモデルを評価するUniM Evaluation Suiteを紹介する。
さらに,構造的インターリーブ生成のためのトレース可能な推論機能を備えたエージェントベースラインモデルUniMAを提案する。
総合的な実験は、UniMの難しさを実証し、統合された任意のマルチモーダルインテリジェンスを進化させるための重要な課題と方向性を強調している。
プロジェクトページはhttps://any2any-mllm.github.io/unim。
関連論文リスト
- MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model [57.89395815934156]
Multi-Turn Contrastive Learning (MuCo)は、このプロセスを再考する対話にインスパイアされたフレームワークである。
新たな5Mマルチモーダルマルチターンデータセット(M3T)による MuCo の表示実験
論文 参考訳(メタデータ) (2026-02-06T05:18:33Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation [8.021435739965982]
マルチモーダルな理解と生成を2つの分離されたフェーズ(認知と熟考)を通じて統合するモジュラーフレームワークを提案する。
コグニションでは、Perceiver、Planner、Reflectorの3つのロール条件のマルチモーダルLLMエージェントが協調対話を行い、構造化された理解と計画を実行する。
Deliberation フェーズには、LSM に基づく推論と拡散に基づく生成を相互に強化する成長意識探索機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-14T09:52:51Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。