論文の概要: E3VS-Bench: A Benchmark for Viewpoint-Dependent Active Perception in 3D Gaussian Splatting Scenes
- arxiv url: http://arxiv.org/abs/2604.17969v2
- Date: Thu, 23 Apr 2026 06:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.015473
- Title: E3VS-Bench: A Benchmark for Viewpoint-Dependent Active Perception in 3D Gaussian Splatting Scenes
- Title(参考訳): E3VS-Bench:3次元ガウス撮影シーンにおける視点依存型アクティブ知覚のベンチマーク
- Authors: Koya Sakamoto, Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Shu Morikuni, Naoya Chiba, Motoaki Kawanabe, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: E3VS-Benchは、現実世界の3D環境における3Dビジュアルサーチを具現化したベンチマークである。
99の高忠実度3Dシーンを3Dガウス・スプレイティングと2,014の質問駆動のエピソードで再構成する。
複数の最先端VLMを評価し,その性能を人間と比較した。
- 参考スコア(独自算出の注目度): 42.5758395227096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual search in 3D environments requires embodied agents to actively explore their surroundings and acquire task-relevant evidence. However, existing visual search and embodied AI benchmarks, including EQA, typically rely on static observations or constrained egocentric motion, and thus do not explicitly evaluate fine-grained viewpoint-dependent phenomena that arise under unrestricted 5-DoF viewpoint control in real-world 3D environments, such as visibility changes caused by vertical viewpoint shifts, revealing contents inside containers, and disambiguating object attributes that are only observable from specific angles. To address this limitation, we introduce {E3VS-Bench}, a benchmark for embodied 3D visual search where agents must control their viewpoints in 5-DoF to gather viewpoint-dependent evidence for question answering. E3VS-Bench consists of 99 high-fidelity 3D scenes reconstructed using 3D Gaussian Splatting and 2,014 question-driven episodes. 3D Gaussian Splatting enables photorealistic free-viewpoint rendering that preserves fine-grained visual details (e.g., small text and subtle attributes) often degraded in mesh-based simulators, thereby allowing the construction of questions that cannot be answered from a single view and instead require active inspection across viewpoints in 5-DoF. We evaluate multiple state-of-the-art VLMs and compare their performance with humans. Despite strong 2D reasoning ability, all models exhibit a substantial gap from humans, highlighting limitations in active perception and coherent viewpoint planning specifically under full 5-DoF viewpoint changes.
- Abstract(参考訳): 3D環境での視覚的な探索には、環境を積極的に探索し、タスク関連証拠を取得することが必要である。
しかし、EQAを含む既存のビジュアルサーチおよび具体化AIベンチマークは、通常、静的な観測や制限された自我中心の運動に依存しており、垂直な視点シフトによる視認性の変化、コンテナ内のコンテンツを明らかにすること、特定の角度からしか観察できないオブジェクト属性の曖昧化など、現実の3D環境において、制限のない5-DoF視点制御の下で発生するきめ細かい視点依存現象を明示的に評価していない。
この制限に対処するために,エージェントが5-DoFの視点を制御し,視点に依存した質問応答の証拠を収集する3次元視覚探索のベンチマークである {E3VS-Bench} を導入する。
E3VS-Benchは、99の高忠実な3Dシーンを3Dガウス・スプラッティングと2,014の質問駆動エピソードで再構成する。
3D Gaussian Splattingは、メッシュベースのシミュレータでしばしば劣化する微細な視覚的詳細(例えば、小さなテキストや微妙な属性)を保存するフォトリアリスティックな自由視点レンダリングを可能にする。
複数の最先端VLMを評価し,その性能を人間と比較した。
強い2D推論能力にもかかわらず、全てのモデルは人間とはかなりのギャップを示しており、アクティブな知覚の限界と、完全な5-DoF視点変化の下でのコヒーレントな視点計画を強調している。
関連論文リスト
- Any3D-VLA: Enhancing VLA Robustness via Diverse Point Clouds [57.024495128182195]
我々は、異なる観測空間と視覚的表現をまたいだパイロット研究を行う。
その結果、視覚的入力を点雲に明示的に持ち上げることで、対応する2次元表現をより補完する表現が得られることがわかった。
本稿では,(1)3次元データの不足,(2)環境横断差と奥行き偏差による領域ギャップの解消という課題に対処するAny3D-VLAを提案する。
論文 参考訳(メタデータ) (2026-01-31T16:34:52Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。