論文の概要: ProCap: Projection-Aware Captioning for Spatial Augmented Reality
- arxiv url: http://arxiv.org/abs/2604.00912v1
- Date: Wed, 01 Apr 2026 13:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.016815
- Title: ProCap: Projection-Aware Captioning for Spatial Augmented Reality
- Title(参考訳): ProCap:空間拡張現実のための投影認識キャプション
- Authors: Zimo Cao, Yuchen Deng, Haibin Ling, Bingyao Huang,
- Abstract要約: ProCapは、投影されたコンテンツを物理的シーンから明示的に分離するフレームワークである。
ProCapには2段階のパイプラインがある。まず、自動セグメンテーションを通じて仮想層と物理層を視覚的に分離する。
最初の大規模SARセマンティックベンチマークデータセットであるRGBP(RGB + Projections)を提案する。
- 参考スコア(独自算出の注目度): 43.46215338297469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial augmented reality (SAR) directly projects digital content onto physical scenes using projectors, creating immersive experience without head-mounted displays. However, for SAR to support intelligent interaction, such as reasoning about the scene or answering user queries, it must semantically distinguish between the physical scene and the projected content. Standard Vision Language Models (VLMs) struggle with this virtual-physical ambiguity, often confusing the two contexts. To address this issue, we introduce ProCap, a novel framework that explicitly decouples projected content from physical scenes. ProCap employs a two-stage pipeline: first it visually isolates virtual and physical layers via automated segmentation; then it uses region-aware retrieval to avoid ambiguous semantic context due to projection distortion. To support this, we present RGBP (RGB + Projections), the first large-scale SAR semantic benchmark dataset, featuring 65 diverse physical scenes and over 180,000 projections with dense, decoupled annotations. Finally, we establish a dual-captioning evaluation protocol using task-specific tokens to assess physical scene and projection descriptions independently. Our experiments show that ProCap provides a robust semantic foundation for future SAR research. The source code, pre-trained models and the RGBP dataset are available on the project page: https://ZimoCao.github.io/ProCap/.
- Abstract(参考訳): 空間拡張現実(SAR)は、プロジェクターを使用してデジタルコンテンツを物理的シーンに直接投影し、ヘッドマウントディスプレイなしで没入感のある体験を作り出す。
しかし、SARがシーンの推論やユーザクエリの応答といったインテリジェントなインタラクションをサポートするためには、物理的なシーンと投影されたコンテンツとを意味的に区別する必要がある。
標準ビジョン言語モデル(VLM)は、この仮想物理学的曖昧さに苦慮し、しばしば2つの文脈を混乱させる。
この問題に対処するために、投影されたコンテンツを物理的シーンから明示的に分離する新しいフレームワークであるProCapを紹介します。
ProCapには2段階のパイプラインがある。まず、自動セグメンテーションを通じて仮想層と物理層を視覚的に分離し、続いて領域認識検索を使用して、投影歪みによるあいまいなセマンティックコンテキストを回避する。
これをサポートするために、RGBP (RGB + Projections) という最初の大規模SARセマンティックベンチマークデータセットを紹介します。
最後に,タスク固有のトークンを用いた二重カプセル化評価プロトコルを構築し,物理的シーンと投影記述を独立に評価する。
我々の実験は、ProCapが将来のSAR研究に堅牢なセマンティック基盤を提供することを示している。
ソースコード、事前トレーニングされたモデル、RGBPデータセットはプロジェクトページで公開されている。
関連論文リスト
- WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation [14.333539903382118]
我々は,新しいグラウンドドナビゲーションガイドのためのLVLMであるWalkGPTを紹介する。
ディープ・アウェア・アクセシビリティ・ガイダンスのための単一のアーキテクチャで言語推論とセグメンテーションを統合する。
我々はまた、アクセシビリティを意識した質問と深度グラウンドの回答を組み合わせた41kの歩行者ビュー画像の大規模なベンチマークであるPAVEを紹介した。
論文 参考訳(メタデータ) (2026-03-11T12:15:40Z) - SAGE: Scalable Agentic 3D Scene Generation for Embodied AI [67.43935343696982]
既存のシーン生成システムは、しばしばルールベースまたはタスク固有のパイプラインに依存し、アーティファクトと物理的に無効なシーンを生成する。
本稿では,ユーザが特定した具体的タスクを与えられたエージェントフレームワークであるSAGEについて,その意図を理解し,大規模にシミュレーション可能な環境を自動的に生成する。
得られた環境は現実的で多様性があり、政策訓練のための現代的なシミュレーターに直接デプロイできる。
論文 参考訳(メタデータ) (2026-02-10T18:59:55Z) - InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision [29.40602634269908]
大規模ビデオテキスト事前学習は高い性能を達成するが、意味的範囲が限られているため、ノイズの多い合成時間に依存する。
Masked Video Modeling (MVM) はパスを直接活用するが、一般的なタスクではテキストを教師する手法である。
InternVideo-Nextは2段階の事前学習方式で、セマンティックに一貫性があるが詳細保存可能な潜在空間を構築できる。
論文 参考訳(メタデータ) (2025-12-01T06:57:39Z) - Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - DEVICE: Depth and Visual Concepts Aware Transformer for OCR-based Image Captioning [12.786190263272859]
OCRをベースとした画像キャプションは重要だが未探索の課題である。
近年の研究は進歩を奨励しているが、シーンの全体的な理解の欠如に悩まされている。
我々は,OCRに基づく画像カプティノンのための深度・視覚認識概念変換器(DEVICE)を提案する。
論文 参考訳(メタデータ) (2023-02-03T04:31:13Z) - SceneGen: Generative Contextual Scene Augmentation using Scene Graph
Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。
SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。
オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。
そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文 参考訳(メタデータ) (2020-09-25T18:36:27Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。