論文の概要: XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models
- arxiv url: http://arxiv.org/abs/2510.15148v1
- Date: Thu, 16 Oct 2025 21:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.399986
- Title: XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models
- Title(参考訳): XModBench:Omni-Languageモデルにおけるクロスモーダル機能と一貫性のベンチマーク
- Authors: Xingrui Wang, Jiang Liu, Chao Huang, Xiaodong Yu, Ze Wang, Ximeng Sun, Jialian Wu, Alan Yuille, Emad Barsoum, Zicheng Liu,
- Abstract要約: クロスモーダル整合性を測定するための大規模トリモーダルベンチマークであるXModBenchを紹介する。
XModBenchは5つのタスクファミリーにまたがる60,828の多重選択質問で構成されている。
実験によると、最強のモデルであるGemini 2.5 Proでさえ空間的および時間的推論に苦戦している。
- 参考スコア(独自算出の注目度): 29.42489557439947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omni-modal large language models (OLLMs) aim to unify audio, vision, and text understanding within a single framework. While existing benchmarks primarily evaluate general cross-modal question-answering ability, it remains unclear whether OLLMs achieve modality-invariant reasoning or exhibit modality-specific biases. We introduce XModBench, a large-scale tri-modal benchmark explicitly designed to measure cross-modal consistency. XModBench comprises 60,828 multiple-choice questions spanning five task families and systematically covers all six modality compositions in question-answer pairs, enabling fine-grained diagnosis of an OLLM's modality-invariant reasoning, modality disparity, and directional imbalance. Experiments show that even the strongest model, Gemini 2.5 Pro, (i) struggles with spatial and temporal reasoning, achieving less than 60% accuracy, (ii) reveals persistent modality disparities, with performance dropping substantially when the same semantic content is conveyed through audio rather than text, and (iii) shows systematic directional imbalance, exhibiting lower consistency when vision serves as context compared to text. These findings indicate that current OLLMs remain far from truly modality-invariant reasoning and position XModBench as a fundamental diagnostic tool for evaluating and improving cross-modal competence. All data and evaluation tools will be available at https://xingruiwang.github.io/projects/XModBench/.
- Abstract(参考訳): Omni-Modal Large Language Model (OLLM) は、音声、視覚、テキスト理解を単一のフレームワークに統合することを目的としている。
既存のベンチマークでは、一般的なクロスモーダルな質問応答能力が評価されているが、OLLMがモダリティ不変な推論を達成するか、あるいはモダリティ固有のバイアスを示すかは定かではない。
XModBenchは、クロスモーダル一貫性を明示的に測定するために設計された大規模トリモーダルベンチマークである。
XModBenchは、5つのタスクファミリーにまたがる60,828の多重選択質問からなり、問合せ対の6つのモダリティ構成を体系的にカバーし、OLLMのモダリティ不変推論、モダリティ不均一性、方向性不均衡のきめ細かい診断を可能にする。
実験によると、最強のモデルであるGemini 2.5 Proさえも、
(i)空間的・時間的推論に苦慮し、精度は60%未満である。
(ii)テキストではなく音声によって同じ意味コンテンツが伝達された場合、パフォーマンスが著しく低下し、持続的なモダリティ格差が明らかになる。
(iii)系統的な方向性の不均衡を示し、視覚がテキストに比べて文脈として機能する場合の一貫性を低下させる。
これらの結果から,現在のOLLMは真のモダリティ不変推論とは程遠いままであり,XModBenchはクロスモーダル能力の評価と改善のための基本的な診断ツールであることがわかった。
すべてのデータおよび評価ツールはhttps://xingruiwang.github.io/projects/XModBench/で利用可能になる。
関連論文リスト
- Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - BHaRNet: Reliability-Aware Body-Hand Modality Expertized Networks for Fine-grained Skeleton Action Recognition [12.973657570368317]
この研究は、信頼性モデリングとマルチモーダル統合を統一し、スケルトン内ドメインとクロスモーダルドメインの両方にわたる不確実性の下で専門的な学習を一般化する確率的デュアルストリームフレームワークを提案する。
本フレームワークは,(1)標準空間変換を除去し,ネイティブ座標から直接学習するキャリブレーションフリー前処理パイプライン,(2)信頼を必要とせず,信頼性に配慮した2重ストリーム学習を安定化する確率的ノイズOR融合,(3)4つの骨格モーダル(関節,骨,関節運動,骨運動)をRGB表現に結合し,構造的および視覚的運動をブリッジングする内部から横断的なアンサンブルからなる。
論文 参考訳(メタデータ) (2026-01-01T15:13:11Z) - FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning [52.88164697048371]
FysicsWorldは、画像、ビデオ、オーディオ、テキスト間の双方向入力出力をサポートする最初の統一されたフルモダリティベンチマークである。
FysicsWorldには16の主要なタスクと3,268のキュレートされたサンプルが含まれており、40以上の高品質なソースから集約されている。
論文 参考訳(メタデータ) (2025-12-14T16:41:29Z) - Dynamic Modality Scheduling for Multimodal Large Models via Confidence, Uncertainty, and Semantic Consistency [0.0]
本研究では,各モダリティの寄与をサンプル単位で適応的に調整する新しいフレームワークである動的モダリティスケジューリング(DMS)を提案する。
VQA、画像テキスト検索、キャプションタスクの実験結果から、DMSはクリーンとロバストの両方のパフォーマンスを著しく改善することが示された。
論文 参考訳(メタデータ) (2025-06-15T05:15:52Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。