論文の概要: Dense360: Dense Understanding from Omnidirectional Panoramas
- arxiv url: http://arxiv.org/abs/2506.14471v1
- Date: Tue, 17 Jun 2025 12:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.470239
- Title: Dense360: Dense Understanding from Omnidirectional Panoramas
- Title(参考訳): Dense360:Omnidirectional PanoramasからのDense Understanding
- Authors: Yikang Zhou, Tao Zhang, Dizhe Zhang, Shunping Ji, Xiangtai Li, Lu Qi,
- Abstract要約: 信頼性に配慮したアノテーションを網羅した全方位パノラマデータセットを提案する。
具体的には,160Kパノラマと5Mのエンティティレベルキャプション,1Mのユニークな参照表現,100Kのエンティティグラウンドのパノラマシーン記述を含む。
- 参考スコア(独自算出の注目度): 24.862817640267572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) require comprehensive visual inputs to achieve dense understanding of the physical world. While existing MLLMs demonstrate impressive world understanding capabilities through limited field-of-view (FOV) visual inputs (e.g., 70 degree), we take the first step toward dense understanding from omnidirectional panoramas. We first introduce an omnidirectional panoramas dataset featuring a comprehensive suite of reliability-scored annotations. Specifically, our dataset contains 160K panoramas with 5M dense entity-level captions, 1M unique referring expressions, and 100K entity-grounded panoramic scene descriptions. Compared to multi-view alternatives, panoramas can provide more complete, compact, and continuous scene representations through equirectangular projections (ERP). However, the use of ERP introduces two key challenges for MLLMs: i) spatial continuity along the circle of latitude, and ii) latitude-dependent variation in information density. We address these challenges through ERP-RoPE, a position encoding scheme specifically designed for panoramic ERP. In addition, we introduce Dense360-Bench, the first benchmark for evaluating MLLMs on omnidirectional captioning and grounding, establishing a comprehensive framework for advancing dense visual-language understanding in panoramic settings.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、物理世界に対する深い理解を得るために、包括的な視覚的入力を必要とする。
既存のMLLMは、視野の限られた視覚入力(例えば70度)を通して、印象的な世界理解能力を示すが、全方位パノラマからの深い理解に向けた第一歩を踏み出す。
まず,全方位パノラマデータセットを導入する。
具体的には,160Kパノラマと5Mのエンティティレベルキャプション,1Mのユニークな参照表現,100Kのエンティティグラウンドのパノラマシーン記述を含む。
マルチビューの代替品と比較して、パノラマは等角射影(ERP)を通してより完全でコンパクトで連続的なシーン表現を提供することができる。
しかし、ERPの使用はMLLMに2つの重要な課題をもたらす。
一 緯度円に沿った空間的連続性、及び
二 情報密度の緯度依存性の変化
本研究では,パノラマERPに特化して設計された位置符号化方式であるERP-RoPEを用いて,これらの課題に対処する。
さらに,一方向キャプションと接地におけるMLLMの評価のための最初のベンチマークであるDense360-Benchを導入し,パノラマ設定における濃密な視覚言語理解を促進するための包括的フレームワークを構築した。
関連論文リスト
- Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文 参考訳(メタデータ) (2025-06-05T17:51:39Z) - Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method [8.039453341761538]
我々は,最初のデータセットであるOmniVQAを導入し,全方向視覚質問応答のための最初のベンチマークを行う。
最先端MLLMの評価結果から,全方向視覚質問応答の処理における限界が明らかとなった。
本研究ではQwen2.5-VL-Instructに基づく規則に基づく強化学習手法である360-R1を提案する。
論文 参考訳(メタデータ) (2025-05-20T10:55:26Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception [43.387076189063556]
高品質な画像テキストデータセットは、多様な視覚的要素と画像記述全体を提供する。
現在のキャプションエンジンは、完全かつ正確なアノテーションを提供していない。
本稿では,低予算かつ高効率なキャプションエンジンを用いた知覚融合法を提案する。
論文 参考訳(メタデータ) (2024-07-11T08:48:06Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Bending Reality: Distortion-aware Transformers for Adapting to Panoramic
Semantic Segmentation [26.09267582056609]
大量の高価なピクセル単位のアノテーションは、堅牢なパノラマセグメンテーションモデルの成功に不可欠である。
360度パノラマにおける歪みと画像-特徴分布は、アノテーションに富んだピンホールドメインからの転写を阻害する。
変形性パッチ埋め込み(DPE)および変形性変形性(DMLP)コンポーネントにおける物体変形とパノラマ画像歪みを学習する。
最後に、マルチスケールのプロトタイプ機能を生成することにより、ピンホールとパノラマの特徴埋め込みで共有セマンティクスを結合する。
論文 参考訳(メタデータ) (2022-03-02T23:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。