論文の概要: OmniPlay: Benchmarking Omni-Modal Models on Omni-Modal Game Playing
- arxiv url: http://arxiv.org/abs/2508.04361v2
- Date: Thu, 07 Aug 2025 01:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 14:01:14.031001
- Title: OmniPlay: Benchmarking Omni-Modal Models on Omni-Modal Game Playing
- Title(参考訳): OmniPlay:OmniModalゲームプレイ上でのOmniModalモデルのベンチマーク
- Authors: Fuqing Bie, Shiyu Huang, Xijia Tao, Zhiqin Fang, Leyi Pan, Junzhe Chen, Min Ren, Liuyu Xiang, Zhaofeng He,
- Abstract要約: オムニプレイ(OmniPlay)は、全知覚スペクトルにおけるエージェントモデルの融合と推論能力を調査するために設計された診断ベンチマークである。
高忠実度メモリタスクに超人的性能を示すが、堅牢な推論と戦略的計画を必要とする課題において、体系的な失敗に苦しむ。
以上の結果から, AGI への道のりは, 相乗的融合に明示的に対処するためには, スケーリング以上の研究が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 7.323709934358947
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While generalist foundation models like Gemini and GPT-4o demonstrate impressive multi-modal competence, existing evaluations fail to test their intelligence in dynamic, interactive worlds. Static benchmarks lack agency, while interactive benchmarks suffer from a severe modal bottleneck, typically ignoring crucial auditory and temporal cues. To bridge this evaluation chasm, we introduce OmniPlay, a diagnostic benchmark designed not just to evaluate, but to probe the fusion and reasoning capabilities of agentic models across the full sensory spectrum. Built on a core philosophy of modality interdependence, OmniPlay comprises a suite of five game environments that systematically create scenarios of both synergy and conflict, forcing agents to perform genuine cross-modal reasoning. Our comprehensive evaluation of six leading omni-modal models reveals a critical dichotomy: they exhibit superhuman performance on high-fidelity memory tasks but suffer from systemic failures in challenges requiring robust reasoning and strategic planning. We demonstrate that this fragility stems from brittle fusion mechanisms, which lead to catastrophic performance degradation under modality conflict and uncover a counter-intuitive "less is more" paradox, where removing sensory information can paradoxically improve performance. Our findings suggest that the path toward robust AGI requires a research focus beyond scaling to explicitly address synergistic fusion. Our platform is available for anonymous review at https://github.com/fuqingbie/omni-game-benchmark.
- Abstract(参考訳): GeminiやGPT-4oのようなジェネラリスト基盤モデルは、印象的なマルチモーダル能力を示しているが、既存の評価は、動的でインタラクティブな世界で彼らの知性をテストするのに失敗している。
静的ベンチマークはエージェンシーを欠いているが、対話的なベンチマークは、重要な聴覚や時間的手がかりを無視した、深刻なモードボトルネックに悩まされている。
この評価シャームを橋渡しするために,OmniPlayを導入する。OmniPlayは,評価だけでなく,全知覚スペクトルにおけるエージェントモデルの融合と推論能力の探索を目的とする診断ベンチマークである。
OmniPlayは、モダリティ相互依存のコア哲学に基づいて構築され、シナジーとコンフリクトの両方のシナリオを体系的に生成する5つのゲーム環境で構成される。
高忠実度メモリタスクにおいて超人的性能を示すが、堅牢な推論と戦略的計画を必要とする課題において、体系的な障害に悩まされる。
筆者らは, この脆性融合機構は, モダリティ競合下での破滅的な性能劣化を招き, 知覚情報の除去がパラドックス的に向上する反直観的な「無はそれ以上」パラドックスを明らかにすることに起因することを実証した。
以上の結果から, AGI への道のりは, 相乗的融合に明示的に対処するためには, スケーリング以上の研究が必要であることが示唆された。
私たちのプラットフォームは、https://github.com/fuqingbie/omni-game-benchmark.comで匿名レビューが可能です。
関連論文リスト
- Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning [54.47710436807661]
MORSE-500(MORSE-500)は、6つの補足的推論カテゴリにまたがる500の完全スクリプト化されたクリップを埋め込んだビデオベンチマークである。
各インスタンスは、決定論的Pythonスクリプト(Manim、Matplotlib、MoviePy)、生成ビデオモデル、実際の映像を使用して生成される。
一度飽和すると時代遅れになる静的ベンチマークとは異なり、MORSE-500は進化するために構築されている。
論文 参考訳(メタデータ) (2025-06-05T19:12:45Z) - TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z) - Impact of Noise on LLM-Models Performance in Abstraction and Reasoning Corpus (ARC) Tasks with Model Temperature Considerations [4.39614901077936]
大規模言語モデル(LLM)は、構造化推論機能への関心が高まっている。
Abstraction and Reasoning Corpusベンチマークは、AIモデルが新しい問題にどのように一般化するかをテストすることによって、これらの能力を評価する上で重要な役割を果たす。
この研究は、現実世界のシナリオに固有のあいまいさと可変性を扱うことができる、より堅牢で適応可能なAIシステムを開発する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-04-22T13:43:58Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities [124.05360767047539]
我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
論文 参考訳(メタデータ) (2024-10-16T04:29:46Z) - TRIAGE: Ethical Benchmarking of AI Models Through Mass Casualty Simulations [4.294623208722234]
本稿では,MLMが大量事故時に倫理的判断を下す能力をテストする,新しい機械倫理(ME)ベンチマークであるTRIAGE Benchmarkを提案する。
現実の倫理的ジレンマと医療専門家が設計した明確なソリューションを使用しており、アノテーションベースのベンチマークよりも現実的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-10-10T15:06:12Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。