論文の概要: Evaluating Time Awareness and Cross-modal Active Perception of Large Models via 4D Escape Room Task
- arxiv url: http://arxiv.org/abs/2603.15467v1
- Date: Mon, 16 Mar 2026 16:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.557963
- Title: Evaluating Time Awareness and Cross-modal Active Perception of Large Models via 4D Escape Room Task
- Title(参考訳): 4次元エスケープルームタスクによる大規模モデルの時間認識とモード間アクティブ知覚の評価
- Authors: Yurui Dong, Ziyue Wang, Shuyun Lu, Dairu Liu, Xuechen Liu, Fuwen Luo, Peng Li, Yang Liu,
- Abstract要約: textbfEscapeCraftは、Omniモデルにおける選択的なクロスモーダル認識と時間認識を評価するためのカスタマイズ可能な4D環境である。
その結果、モデルはモダリティバイアスに苦しむことが示唆され、現在のモデルが時間制約の下で複数のモダリティを統合する能力に重大なギャップがあることが示唆された。
- 参考スコア(独自算出の注目度): 12.820859684139727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently made rapid progress toward unified Omni models that integrate vision, language, and audio. However, existing environments largely focus on 2D or 3D visual context and vision-language tasks, offering limited support for temporally dependent auditory signals and selective cross-modal integration, where different modalities may provide complementary or interfering information, which are essential capabilities for realistic multimodal reasoning. As a result, whether models can actively coordinate modalities and reason under time-varying, irreversible conditions remains underexplored. To this end, we introduce \textbf{EscapeCraft-4D}, a customizable 4D environment for assessing selective cross-modal perception and time awareness in Omni models. It incorporates trigger-based auditory sources, temporally transient evidence, and location-dependent cues, requiring agents to perform spatio-temporal reasoning and proactive multimodal integration under time constraints. Building on this environment, we curate a benchmark to evaluate corresponding abilities across powerful models. Evaluation results suggest that models struggle with modality bias, and reveal significant gaps in current model's ability to integrate multiple modalities under time constraints. Further in-depth analysis uncovers how multiple modalities interact and jointly influence model decisions in complex multimodal reasoning environments.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年,視覚,言語,音声を統合した統一Omniモデルに向けて急速に進歩している。
しかし、既存の環境は主に2次元または3次元の視覚的コンテキストと視覚言語タスクに重点を置いており、時間依存の聴覚信号の限られたサポートと、様々なモーダルが相補的あるいは干渉的な情報を提供し、これは現実的なマルチモーダル推論に不可欠な機能である。
結果として、モデルが時間的に変化し、不可逆な条件の下で、モダリティと推論を活発に調整できるかどうかは未定のままである。
この目的のために,オムニモデルにおける選択的相互モーダル認識と時間認識を評価するための,カスタマイズ可能な4D環境である「textbf{EscapeCraft-4D}」を紹介した。
トリガーベースの聴覚源、時間的過渡的な証拠、位置に依存した手がかりが組み込まれており、エージェントは時間的制約の下で時空間推論や積極的マルチモーダル統合を行う必要がある。
この環境に基づいて、我々は強力なモデル間で対応する能力を評価するためにベンチマークをキュレートする。
評価結果は,モデルがモダリティバイアスに苦しむことを示唆し,時間制約下で複数のモダリティを統合する現在のモデルの能力に大きなギャップがあることを示唆している。
さらに詳細な分析により、複雑なマルチモーダル推論環境において、複数のモーダルがどう相互作用し、モデル決定に共同的に影響を及ぼすかが明らかになった。
関連論文リスト
- AMUSE: Audio-Visual Benchmark and Alignment Framework for Agentic Multi-Speaker Understanding [73.05946667683259]
最近の大規模言語モデル(MLLM)は、強い認識を示すが、多話者、対話中心の設定に苦戦している。
本質的にエージェント的なタスクを中心に設計されたベンチマークであるAMUSEを紹介します。
我々は、報酬最適化と本質的なマルチモーダル自己評価を統合するデータ効率の高いエージェントアライメントフレームワークRAFTを提案する。
論文 参考訳(メタデータ) (2025-12-18T07:01:47Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Cross-Modal Consistency in Multimodal Large Language Models [33.229271701817616]
クロスモーダル一貫性という新しい概念を導入する。
実験結果から, GPT-4V内における視覚と言語モダリティの矛盾が明らかとなった。
我々の研究は、そのようなモデルの適切な利用に関する洞察と、その設計を強化するための潜在的な道のヒントを得る。
論文 参考訳(メタデータ) (2024-11-14T08:22:42Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。