論文の概要: ODI-Bench: Can MLLMs Understand Immersive Omnidirectional Environments?
- arxiv url: http://arxiv.org/abs/2510.11549v1
- Date: Mon, 13 Oct 2025 15:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.440419
- Title: ODI-Bench: Can MLLMs Understand Immersive Omnidirectional Environments?
- Title(参考訳): ODI-Bench:MLLMは没入型全方位環境に耐えられるか?
- Authors: Liu Yang, Huiyu Duan, Ran Tao, Juntao Cheng, Sijing Wu, Yunhao Li, Jing Liu, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: ODI-Benchは全方位画像理解に特化して設計された新しい総合的ベンチマークである。
プロプライエタリモデルやオープンソースモデルを含む20のMLLMをベンチマークする大規模な実験が実施されている。
さらに,全方位環境におけるMLLMの理解能力を大幅に向上させる訓練不要なOmni-CoTを紹介する。
- 参考スコア(独自算出の注目度): 86.42854691331713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omnidirectional images (ODIs) provide full 360x180 view which are widely adopted in VR, AR and embodied intelligence applications. While multi-modal large language models (MLLMs) have demonstrated remarkable performance on conventional 2D image and video understanding benchmarks, their ability to comprehend the immersive environments captured by ODIs remains largely unexplored. To address this gap, we first present ODI-Bench, a novel comprehensive benchmark specifically designed for omnidirectional image understanding. ODI-Bench contains 2,000 high-quality omnidirectional images and over 4,000 manually annotated question-answering (QA) pairs across 10 fine-grained tasks, covering both general-level and spatial-level ODI understanding. Extensive experiments are conducted to benchmark 20 representative MLLMs, including proprietary and open-source models, under both close-ended and open-ended settings. Experimental results reveal that current MLLMs still struggle to capture the immersive context provided by ODIs. To this end, we further introduce Omni-CoT, a training-free method which significantly enhances MLLMs' comprehension ability in the omnidirectional environment through chain-of-thought reasoning across both textual information and visual cues. Both the benchmark and the code will be released upon the publication.
- Abstract(参考訳): ODI(Omnidirectional image)は、VR、AR、インボディードインテリジェンスアプリケーションで広く採用されている360x180のフルビューを提供する。
MLLM(Multi-modal large language model)は従来の2次元画像とビデオ理解のベンチマークで顕著な性能を示したが、ODIが捉えた没入型環境を理解する能力は未解明のままである。
このギャップに対処するために、我々はODI-Benchを初めて提示する。
ODI-Benchには、2000以上の高品質の全方位画像と、10のきめ細かいタスクにわたる4000以上の手動の注釈付き質問回答(QA)ペアが含まれており、一般レベルのODI理解と空間レベルのODI理解の両方をカバーしている。
プロプライエタリおよびオープンソースモデルを含む20の代表的なMLLMを、クローズドおよびオープンエンドの両方の設定でベンチマークするために、大規模な実験が行われた。
実験の結果,現在のMLLMはODIによって提供される没入型コンテキストを捉えるのに苦戦していることが明らかとなった。
そこで本研究では,一方向環境におけるMLLMの理解能力を,テキスト情報と視覚的手がかりの両方をチェーン・オブ・プリンティングすることで著しく向上させる学習自由手法であるOmni-CoTについても紹介する。
ベンチマークとコードの両方が公開される予定だ。
関連論文リスト
- OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - Dense360: Dense Understanding from Omnidirectional Panoramas [24.862817640267572]
信頼性に配慮したアノテーションを網羅した全方位パノラマデータセットを提案する。
具体的には,160Kパノラマと5Mのエンティティレベルキャプション,1Mのユニークな参照表現,100Kのエンティティグラウンドのパノラマシーン記述を含む。
論文 参考訳(メタデータ) (2025-06-17T12:35:23Z) - Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method [8.039453341761538]
我々は,最初のデータセットであるOmniVQAを導入し,全方向視覚質問応答のための最初のベンチマークを行う。
最先端MLLMの評価結果から,全方向視覚質問応答の処理における限界が明らかとなった。
本研究ではQwen2.5-VL-Instructに基づく規則に基づく強化学習手法である360-R1を提案する。
論文 参考訳(メタデータ) (2025-05-20T10:55:26Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs [41.072699990427374]
マルチビュー理解は、マルチモーダル大言語モデル(MLLM)において、エンボディエージェントとして使用されるための基本的な課題である。
我々は、90の現実世界のシーンに2,100人以上の注意深い注釈付き質問応答対のベンチマークであるAll-Angles Benchを提案する。
Gemini-2.0-Flash, Claude-3.7-Sonnet, GPT-4o など27のMLLMを人体評価器に対してベンチマークした結果, 性能差は顕著であった。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。