論文の概要: FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning
- arxiv url: http://arxiv.org/abs/2512.12756v1
- Date: Sun, 14 Dec 2025 16:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.421863
- Title: FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning
- Title(参考訳): FysicsWorld: 任意の理解、生成、推論のための統一された完全なモダリティベンチマーク
- Authors: Yue Jiang, Dingkang Yang, Minghao Han, Jinghang Han, Zizhi Chen, Yizhou Liu, Mingcheng Li, Peng Zhai, Lihua Zhang,
- Abstract要約: FysicsWorldは、画像、ビデオ、オーディオ、テキスト間の双方向入力出力をサポートする最初の統一されたフルモダリティベンチマークである。
FysicsWorldには16の主要なタスクと3,268のキュレートされたサンプルが含まれており、40以上の高品質なソースから集約されている。
- 参考スコア(独自算出の注目度): 52.88164697048371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in multimodal large language models (MLLMs) and emerging omni-modal architectures, current benchmarks remain limited in scope and integration, suffering from incomplete modality coverage, restricted interaction to text-centric outputs, and weak interdependence and complementarity among modalities. To bridge these gaps, we introduce FysicsWorld, the first unified full-modality benchmark that supports bidirectional input-output across image, video, audio, and text, enabling comprehensive any-to-any evaluation across understanding, generation, and reasoning. FysicsWorld encompasses 16 primary tasks and 3,268 curated samples, aggregated from over 40 high-quality sources and covering a rich set of open-domain categories with diverse question types. We also propose the Cross-Modal Complementarity Screening (CMCS) strategy integrated in a systematic data construction framework that produces omni-modal data for spoken interaction and fusion-dependent cross-modal reasoning. Through a comprehensive evaluation of over 30 state-of-the-art baselines, spanning MLLMs, modality-specific models, unified understanding-generation models, and omni-modal language models, FysicsWorld exposes the performance disparities and limitations across models in understanding, generation, and reasoning. Our benchmark establishes a unified foundation and strong baselines for evaluating and advancing next-generation full-modality architectures.
- Abstract(参考訳): MLLM(Multimodal large language model)や新興のOmni-modal Architecture(英語版)の急速な進歩にもかかわらず、現在のベンチマークはスコープと統合に限られており、不完全なモダリティカバレッジ、テキスト中心の出力へのインタラクションの制限、モーダル間の相互依存性と相補性に悩まされている。
これらのギャップを埋めるため、FysicsWorldは、画像、ビデオ、オーディオ、テキスト間の双方向入力出力をサポートし、理解、生成、推論をまたいだ総合的な任意の評価を可能にする最初の統一されたフルモダリティベンチマークである。
FysicsWorldには16の主要なタスクと3,268のキュレートされたサンプルが含まれており、40以上の高品質ソースから集約され、多様な質問タイプを持つ豊富なオープンドメインカテゴリをカバーしている。
また,音声対話のためのオムニモーダルデータと,融合に依存した相互モーダル推論を生成する,系統的なデータ構築フレームワークに組み込まれた相互補完性スクリーニング(CMCS)戦略を提案する。
MLLM、モダリティ特化モデル、統一理解世代モデル、オムニモーダル言語モデルなど30以上の最先端のベースラインを包括的に評価することで、FysicsWorldは理解、生成、推論におけるモデル間のパフォーマンス格差と制限を明らかにする。
我々のベンチマークは、次世代のフルモダリティアーキテクチャの評価と発展のための統一された基盤と強力なベースラインを確立します。
関連論文リスト
- Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - UnifiedVisual: A Framework for Constructing Unified Vision-Language Datasets [51.284864284520744]
統合視覚大言語モデル(VLLM)は、最近、マルチモーダル理解と生成の両方において顕著な進歩を遂げている。
本稿では,新しいデータセット構築フレームワークUnifiedVisualを導入し,UnifiedVisual-240Kを提案する。
UnifiedVisual-240Kは、様々な視覚的およびテキスト的入力と出力をシームレスに統合し、包括的なクロスモーダル推論を可能にする。
論文 参考訳(メタデータ) (2025-09-18T08:39:44Z) - Team of One: Cracking Complex Video QA with Model Synergy [24.75732964829523]
本稿では,複雑な実世界のシナリオにおける推論深度と堅牢性を高める,オープンエンドなビデオ質問応答のための新しいフレームワークを提案する。
既存のビデオラージマルチモーダルモデル (Video-LMM) では、文脈的理解の制限、時間的モデリングの弱さ、曖昧さや構成的クエリへの一般化の低さがしばしば見られる。
論文 参考訳(メタデータ) (2025-07-18T11:12:44Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。