論文の概要: More than the Sum: Panorama-Language Models for Adverse Omni-Scenes
- arxiv url: http://arxiv.org/abs/2603.09573v1
- Date: Tue, 10 Mar 2026 12:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.290238
- Title: More than the Sum: Panorama-Language Models for Adverse Omni-Scenes
- Title(参考訳): パノラマ・ランゲージモデルと逆オムニ・シーン
- Authors: Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen,
- Abstract要約: 既存の視覚言語モデル(VLM)はピンホール画像用に調整され、複数の視野の狭い入力を縫い合わせ、完全な全シーン理解を組み立てる。
本稿では,Panorama-Language Modeling (PLM) パラダイムについて紹介する。
- 参考スコア(独自算出の注目度): 63.9800546079941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision-language models (VLMs) are tailored for pinhole imagery, stitching multiple narrow field-of-view inputs to piece together a complete omni-scene understanding. Yet, such multi-view perception overlooks the holistic spatial and contextual relationships that a single panorama inherently preserves. In this work, we introduce the Panorama-Language Modeling (PLM)paradigm, a unified $360^\circ$ vision-language reasoning that is more than the sum of its pinhole counterparts. Besides, we present PanoVQA, a large-scale panoramic VQA dataset that involves adverse omni-scenes, enabling comprehensive reasoning under object occlusions and driving accidents. To establish a foundation for PLM, we develop a plug-and-play panoramic sparse attention module that allows existing pinhole-based VLMs to process equirectangular panoramas without retraining. Extensive experiments demonstrate that our PLM achieves superior robustness and holistic reasoning under challenging omni-scenes, yielding understanding greater than the sum of its narrow parts. Project page: https://github.com/InSAI-Lab/PanoVQA.
- Abstract(参考訳): 既存の視覚言語モデル(VLM)はピンホール画像用に調整され、複数の視野の狭い入力を縫い合わせ、完全な全シーン理解を組み立てる。
しかし、このような多視点認識は、単一のパノラマが本質的に保存する全体的空間的・文脈的関係を見落としている。
本研究では,Panorama-Language Modeling (PLM) パラダイムを導入する。
さらに,パノラマVQA(パノラマVQA)の大規模データセットも紹介した。
PLMの基礎を確立するために,既存のピンホール型VLMが再トレーニングせずに等角パノラマを処理できるプラグアンドプレイパノラマ・スパース・アテンション・モジュールを開発した。
広汎な実験により,我々のPLMは,難解なオームニシーン下で優れた強靭性と全体論的推論を達成し,より狭い部分の総和以上の理解をもたらすことが示された。
プロジェクトページ:https://github.com/InSAI-Lab/PanoVQA。
関連論文リスト
- PanoWorld-X: Generating Explorable Panoramic Worlds via Sphere-Aware Video Diffusion [87.13016347332943]
PanoWorld-Xは、多彩なカメラ軌道を持つ高忠実で制御可能なパノラマビデオ生成のための新しいフレームワークである。
動作範囲,制御精度,視覚的品質など,様々な面で優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2025-09-29T16:22:00Z) - Omnidirectional Spatial Modeling from Correlated Panoramas [4.75637997496421]
既存の全方位法は、フレーム間の相関したパノラマを無視しながら、単一のフレーム内でシーン理解を実現する。
textbfCFpanoは、フレーム間の相関したパノラマの視覚的質問応答に特化した、textbf Firstベンチマークデータセットである。
本稿では,マルチモーダル大言語モデル (MLLM) とグループ相対政策最適化 (GRPO) を微調整したメソッド名と,クロスフレーム相関パノラマを用いた頑健で一貫した推論のための一組の報酬関数を提案する。
論文 参考訳(メタデータ) (2025-09-02T10:14:55Z) - Dense360: Dense Understanding from Omnidirectional Panoramas [24.862817640267572]
信頼性に配慮したアノテーションを網羅した全方位パノラマデータセットを提案する。
具体的には,160Kパノラマと5Mのエンティティレベルキャプション,1Mのユニークな参照表現,100Kのエンティティグラウンドのパノラマシーン記述を含む。
論文 参考訳(メタデータ) (2025-06-17T12:35:23Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。