論文の概要: UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in OmniModels
- arxiv url: http://arxiv.org/abs/2510.18915v2
- Date: Mon, 27 Oct 2025 03:35:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.597234
- Title: UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in OmniModels
- Title(参考訳): UNO-Bench: OmniModelsにおけるUni-modalとOmni-modalの合成法則を探索するための統一ベンチマーク
- Authors: Chen Chen, ZeYang Hu, Fengjiao Chen, Liya Ma, Jiaxing Liu, Xiaoyu Li, Xuezhi Cao,
- Abstract要約: マルチモーダル大言語モデルは、一様理解から視覚、音声、言語モダリティの統一へと発展し、総称してオムニモデルと呼ばれている。
我々は,UNi-modalとOmni-modalの両機能を効果的に評価する新しい,高品質で統一されたOmniモデルベンチマークUNO-Benchを提案する。
このベンチマークは、44のタスクタイプにまたがる98%のクロスモーダリティの可解性と、複雑な推論を評価するための革新的な多段階のオープンエンド質問タイプで構成されている。
- 参考スコア(独自算出の注目度): 12.233067923710635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Languages models have been progressing from uni-modal understanding toward unifying visual, audio and language modalities, collectively termed omni models. However, the correlation between uni-modal and omni-modal remains unclear, which requires comprehensive evaluation to drive omni model's intelligence evolution. In this work, we propose a novel, high quality and UNified Omni model benchmark, UNO-Bench, which effectively assesses both UNi-modal and Omni-modal capabilities. The benchmark consists of 3730 human curated samples, with 98% cross-modality solvability, across 44 task types, and an innovative multi-step open-ended question type for assessing complex reasoning. Besides, a general scoring model supporting 6 question types is proposed for automated evaluation with 95% accuracy. Experimental result shows the Compositional Law between omni-modal and uni-modal performance and the omni-modal capability manifests as a bottleneck effect on weak models, while exhibiting synergistic promotion on strong models. The code and data are available at https://github.com/meituan-longcat/UNO-Bench
- Abstract(参考訳): マルチモーダル大言語モデルは、一様理解から視覚、音声、言語モダリティの統一へと発展し、総称してオムニモデルと呼ばれている。
しかし、ユニモーダルとオムニモーダルの相関は不明確であり、オムニモデルのインテリジェンス進化を促進するには包括的評価が必要である。
本研究では,Uni-modalとOmni-modalの両機能を効果的に評価する新しい,高品質で統一されたOmniモデルベンチマークUNO-Benchを提案する。
このベンチマークは3730人のキュレートされたサンプルで構成され、98%のクロスモーダリティの可解性、44のタスクタイプ、そして複雑な推論を評価するための革新的な多段階のオープンエンド質問タイプで構成されている。
さらに、95%の精度で自動評価を行うため、6つの質問タイプをサポートする一般的なスコアリングモデルを提案する。
実験結果から, 弱モデルにおいて, 強モデル上での相乗的促進を示す一方で, 弱モデルにおいてオムニモダル性能とオムニモダル能力の組成則がボトルネック効果として現れることが明らかとなった。
コードとデータはhttps://github.com/meituan-longcat/UNO-Benchで公開されている。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Is Extending Modality The Right Path Towards Omni-Modality? [34.79461922911039]
対象ドメインと言語データに基づいて,市販の言語モデルを微調整したマルチモーダルモデルのトレーニング手法であるモーダリティの拡張の効果について検討する。
これらのトレードオフを分析し、現在のアプローチによる真正のモダリティの実現可能性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-06-02T17:01:40Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Explore the Limits of Omni-modal Pretraining at Scale [21.82148059125346]
マルチモーダルコンテキスト(MiCo)という,スケーラブルな事前学習パラダイムを提案する。
MiCoは、事前トレーニングプロセスにおいて、モデルパラメータとともに、モダリティとデータの量をスケールアップすることができる。
我々のモデルは、最先端のパフォーマンスのために37の新たなレコードを作成します。
論文 参考訳(メタデータ) (2024-06-13T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。