論文の概要: Omnidirectional Spatial Modeling from Correlated Panoramas
- arxiv url: http://arxiv.org/abs/2509.02164v1
- Date: Tue, 02 Sep 2025 10:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.993918
- Title: Omnidirectional Spatial Modeling from Correlated Panoramas
- Title(参考訳): 相関パノラマからの全方位空間モデリング
- Authors: Xinshen Zhang, Tongxi Fu, Xu Zheng,
- Abstract要約: 既存の全方位法は、フレーム間の相関したパノラマを無視しながら、単一のフレーム内でシーン理解を実現する。
textbfCFpanoは、フレーム間の相関したパノラマの視覚的質問応答に特化した、textbf Firstベンチマークデータセットである。
本稿では,マルチモーダル大言語モデル (MLLM) とグループ相対政策最適化 (GRPO) を微調整したメソッド名と,クロスフレーム相関パノラマを用いた頑健で一貫した推論のための一組の報酬関数を提案する。
- 参考スコア(独自算出の注目度): 4.75637997496421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omnidirectional scene understanding is vital for various downstream applications, such as embodied AI, autonomous driving, and immersive environments, yet remains challenging due to geometric distortion and complex spatial relations in 360{\deg} imagery. Existing omnidirectional methods achieve scene understanding within a single frame while neglecting cross-frame correlated panoramas. To bridge this gap, we introduce \textbf{CFpano}, the \textbf{first} benchmark dataset dedicated to cross-frame correlated panoramas visual question answering in the holistic 360{\deg} scenes. CFpano consists of over 2700 images together with over 8000 question-answer pairs, and the question types include both multiple choice and open-ended VQA. Building upon our CFpano, we further present \methodname, a multi-modal large language model (MLLM) fine-tuned with Group Relative Policy Optimization (GRPO) and a set of tailored reward functions for robust and consistent reasoning with cross-frame correlated panoramas. Benchmark experiments with existing MLLMs are conducted with our CFpano. The experimental results demonstrate that \methodname achieves state-of-the-art performance across both multiple-choice and open-ended VQA tasks, outperforming strong baselines on all major reasoning categories (\textbf{+5.37\%} in overall performance). Our analyses validate the effectiveness of GRPO and establish a new benchmark for panoramic scene understanding.
- Abstract(参考訳): 対向的なシーン理解は、組み込まれたAI、自律運転、没入型環境など、さまざまな下流アプリケーションにとって不可欠であるが、幾何学的歪みと360{\deg}画像の複雑な空間関係のため、依然として困難である。
既存の全方位法は、フレーム間の相関したパノラマを無視しながら、単一のフレーム内でシーン理解を実現する。
このギャップを埋めるために,クロスフレーム相関したパノラマの視覚的質問応答専用のベンチマークデータセットである \textbf{CFpano} を紹介した。
CFpanoは2700以上の画像と8000以上の質問応答ペアで構成され、質問タイプには複数の選択とオープンエンドのVQAの両方が含まれている。
CFpanoをベースとして,グループ相対政策最適化(GRPO)により微調整されたマルチモーダル大言語モデル(MLLM)である‘methodname’と,クロスフレーム相関パノラマを用いた堅牢で一貫した推論のための一連の報酬関数を提案する。
既存のMLLMを用いたベンチマーク実験をCFpanoで実施した。
実験の結果,<methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</methodname</method>が得られた。
本分析はGRPOの有効性を検証し,パノラマシーン理解のための新しいベンチマークを構築した。
関連論文リスト
- Towards Omnidirectional Reasoning with 360-R1: A Dataset, Benchmark, and GRPO-based Method [8.039453341761538]
我々は,最初のデータセットであるOmniVQAを導入し,全方向視覚質問応答のための最初のベンチマークを行う。
最先端MLLMの評価結果から,全方向視覚質問応答の処理における限界が明らかとなった。
本研究ではQwen2.5-VL-Instructに基づく規則に基づく強化学習手法である360-R1を提案する。
論文 参考訳(メタデータ) (2025-05-20T10:55:26Z) - Dependency Structure Augmented Contextual Scoping Framework for Multimodal Aspect-Based Sentiment Analysis [9.561100210295699]
マルチモーダルアスペクトベース感性分析(MABSA)は,画像とテキストのペアから微細な情報を抽出する。
DASCOは、依存性解析ツリーを活用することでアスペクトレベルの感情推論を強化する、きめ細かいスコープ指向のフレームワークである。
2つのベンチマークデータセットの実験は、DASCOがMABSAで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-15T16:05:09Z) - PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs [10.970010947605289]
パノラマ画像生成(PIG)は任意の長さのコヒーレントな画像を作成することを目的としている。
パノラマ(PanoLlama)は,パノラマ生成と自己回帰パラダイムを融合した,永続的で一貫性のあるパノラマ生成を実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-11-24T15:06:57Z) - More than the Sum of Its Parts: Ensembling Backbone Networks for
Few-Shot Segmentation [49.090592800481616]
異なるバックボーンから特徴を融合させることで、よりリッチな視覚的特徴を捉えることができるかどうかを検討する。
Independent Voting と Feature Fusion という2つのアンサンブル手法を提案し,比較する。
当社のアプローチは、ワンショットの学習シナリオに挑戦しても、従来の単一バックボーンPANetを標準ベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-02-09T18:01:15Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Graph-CoVis: GNN-based Multi-view Panorama Global Pose Estimation [11.8322612639007]
Graph-CoVisは、共同視覚構造とグローバルモーションを共同で学習する、新しいグラフニューラルネットワークベースのアーキテクチャである。
我々のモデルは最先端のアプローチと競争的に機能することを示します。
論文 参考訳(メタデータ) (2023-04-26T00:04:50Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - Capturing Omni-Range Context for Omnidirectional Segmentation [29.738065412097598]
本稿では,fovと画像領域間の構造分布のギャップを埋めるために,並列注意ネットワーク(ecanets)を導入する。
ラベル付きデータとラベルなしデータの両方を利用して、マルチソースとオムニバイザード学習を活用してモデルトレーニングをアップグレードします。
我々の新しいモデル、トレーニング規則およびマルチソース予測融合は、新しい最先端結果に性能(mIoU)を上昇させる。
論文 参考訳(メタデータ) (2021-03-09T19:46:09Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。