論文の概要: Panoramic Affordance Prediction
- arxiv url: http://arxiv.org/abs/2603.15558v1
- Date: Mon, 16 Mar 2026 17:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.687239
- Title: Panoramic Affordance Prediction
- Title(参考訳): パノラマ異常予測
- Authors: Zixin Zhang, Chenfei Liao, Hongfei Zhang, Harold Haodong Chen, Kanghao Chen, Zichen Wen, Litao Guo, Bin Ren, Xu Zheng, Yinchuan Li, Xuming Hu, Nicu Sebe, Ying-Cong Chen,
- Abstract要約: 順応予測は、具体化されたAIにおける知覚と行動の間に重要な橋渡しとなる。
本研究では,360度画像を用いたパノラマ精度予測法について紹介する。
本研究では,ヒトの胎児の視覚系に触発されたトレーニング不要で粗いパイプラインであるPAPを提案する。
- 参考スコア(独自算出の注目度): 94.50813972018504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affordance prediction serves as a critical bridge between perception and action in embodied AI. However, existing research is confined to pinhole camera models, which suffer from narrow Fields of View (FoV) and fragmented observations, often missing critical holistic environmental context. In this paper, we present the first exploration into Panoramic Affordance Prediction, utilizing 360-degree imagery to capture global spatial relationships and holistic scene understanding. To facilitate this novel task, we first introduce PAP-12K, a large-scale benchmark dataset containing over 1,000 ultra-high-resolution (12k, 11904 x 5952) panoramic images with over 12k carefully annotated QA pairs and affordance masks. Furthermore, we propose PAP, a training-free, coarse-to-fine pipeline inspired by the human foveal visual system to tackle the ultra-high resolution and severe distortion inherent in panoramic images. PAP employs recursive visual routing via grid prompting to progressively locate targets, applies an adaptive gaze mechanism to rectify local geometric distortions, and utilizes a cascaded grounding pipeline to extract precise instance-level masks. Experimental results on PAP-12K reveal that existing affordance prediction methods designed for standard perspective images suffer severe performance degradation and fail due to the unique challenges of panoramic vision. In contrast, PAP framework effectively overcomes these obstacles, significantly outperforming state-of-the-art baselines and highlighting the immense potential of panoramic perception for robust embodied intelligence.
- Abstract(参考訳): 順応予測は、具体化されたAIにおける知覚と行動の間に重要な橋渡しとなる。
しかし、既存の研究は、狭い視野(FoV)と断片化された観察に苦しむピンホールカメラモデルに限られており、しばしば批判的な全体的環境条件を欠いている。
本稿では,パノラマ空間の空間的関係と全体像の理解を360度画像で捉えることにより,パノラマ確率予測を初めて行う。
そこで我々はまず,1000以上の超高解像度(12k, 11904 x 5952)パノラマ画像を含む大規模ベンチマークデータセットであるPAP-12Kを紹介した。
さらに,パノラマ画像に内在する超高分解能・強歪みに対処するために,ヒトの胎児視覚システムに触発されたトレーニング不要で粗いパイプラインであるPAPを提案する。
PAPは、グリッドを介した再帰的な視覚的ルーティングを使用して、ターゲットを段階的に特定し、局所的な幾何学的歪みを補正するための適応的な視線機構を適用し、カスケードされた接地パイプラインを使用して、精密なインスタンスレベルのマスクを抽出する。
PAP-12Kの実験結果から,パノラマ視の特異な課題により,標準的な視点画像に設計された既存のアベイランス予測手法が深刻な性能劣化と失敗を招いたことが判明した。
対照的に、PAPフレームワークはこれらの障害を効果的に克服し、最先端のベースラインを著しく上回り、堅牢なエンボディドインテリジェンスに対するパノラマ認識の潜在可能性を強調している。
関連論文リスト
- Gaussian-Constrained LeJEPA Representations for Unsupervised Scene Discovery and Pose Consistency [0.0]
本稿では,これらの課題に対処するために,LeJEPA(Joint Embedding Predictive Architecture)にヒントを得たガウス制約表現の適用について検討する。
学習画像の埋め込みに等方的ガウス的制約を課すLeJEPAにインスパイアされたアプローチで, 段階的に改良されたパイプラインを3つ提示する。
論文 参考訳(メタデータ) (2026-01-31T19:52:54Z) - Generalizable Collaborative Search-and-Capture in Cluttered Environments via Path-Guided MAPPO and Directional Frontier Allocation [7.6658082440595186]
乱雑な環境における協調的追従回避は、まばらな報酬と制約された視野による重大な課題を示す。
反応制御によるトポロジカルプランニングをブリッジする階層型フレームワークであるPGF-MAPPOを提案する。
実験により、PGF-MAPPOはより高速なエバダに対して捕集効率が優れていることが示された。
論文 参考訳(メタデータ) (2025-12-10T08:09:12Z) - Panoramic Out-of-Distribution Segmentation for Autonomous Driving [25.32165408678185]
パノラマ・アウト・オブ・ディストリビューション(PanOoS)を導入し,包括的で安全なシーン理解を実現する。
POSはテキスト誘導の即時分布学習によりパノラマ画像の特徴に適応する。
POSは、主要なクローズドセットセグメンテーション機能を実現し、パノラマ理解の開発を進める。
論文 参考訳(メタデータ) (2025-05-06T13:51:26Z) - MCPDepth: Omnidirectional Depth Estimation via Stereo Matching from Multi-Cylindrical Panoramas [49.891712558113845]
マルチシリンダパノラマ深さ推定(MCPDepth)を導入する。
MCPDepthは、全方位深度推定を強化するために設計された2段階のフレームワークである。
本手法は,屋外データセットのDeep360では平均絶対誤差(MAE)が18.8%,実データセットの3D60では19.9%向上する。
論文 参考訳(メタデータ) (2024-08-03T03:35:37Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z) - Revisiting Pixel-Wise Supervision for Face Anti-Spoofing [75.89648108213773]
対面防止(FAS)は、提示攻撃(PA)から顔認識システムを保護する上で重要な役割を担っている
伝統的に、二分損失によって教師される深いモデルは、本質的および差別的なスプーフィングパターンを記述するのに弱い。
近年、よりきめ細かいピクセル/パッチレベルのキューを提供することを目的として、FASタスクに対してピクセル単位での監視が提案されている。
論文 参考訳(メタデータ) (2020-11-24T11:25:58Z) - Towards Image-based Automatic Meter Reading in Unconstrained Scenarios:
A Robust and Efficient Approach [60.63996472100845]
本稿では,制約のないシナリオに着目したAMR(Automatic Meter Reading)のエンドツーエンドアプローチを提案する。
我々の主な貢献は、コーナー検出とカウンタ分類と呼ばれる新しいステージをAMRパイプラインに挿入することである。
信頼度が低い読みを拒絶した場合,AMRシステムは印象的な認識率(すなわち99%)を達成することを示す。
論文 参考訳(メタデータ) (2020-09-21T21:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。