論文の概要: Hestia: Hierarchical Next-Best-View Exploration for Systematic Intelligent Autonomous Data Collection
- arxiv url: http://arxiv.org/abs/2508.01014v1
- Date: Fri, 01 Aug 2025 18:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.666269
- Title: Hestia: Hierarchical Next-Best-View Exploration for Systematic Intelligent Autonomous Data Collection
- Title(参考訳): Hestia: システムのインテリジェントな自律データ収集のための階層的な次世代ビュー探索
- Authors: Cheng-You Lu, Zhuoli Zhuang, Nguyen Thanh Trung Le, Da Xiao, Yu-Cheng Chang, Thomas Do, Srinath Sridhar, Chin-teng Lin,
- Abstract要約: 本研究は,階層的Next-Best-View Exploration for Systematic Intelligent Autonomous Data Collection (Hestia)を紹介する。
Hestiaはデータセットの選択、観察設計、アクション空間、報酬計算、学習スキームなどのコアコンポーネントを提案することで、次のベストビュータスクを体系的に定義する。
実験の結果、HestiaはNVIDIA IsaacLab環境で翻訳された3つのデータセットとオブジェクト設定に対して堅牢に動作していることがわかった。
- 参考スコア(独自算出の注目度): 23.427212631082025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in 3D reconstruction and novel view synthesis have enabled efficient, photorealistic rendering, but the data collection process remains largely manual, making it time-consuming and labor-intensive. To address the challenges, this study introduces Hierarchical Next-Best-View Exploration for Systematic Intelligent Autonomous Data Collection (Hestia), which leverages reinforcement learning to learn a generalizable policy for 5-DoF next-best viewpoint prediction. Unlike prior approaches, Hestia systematically defines the next-best-view task by proposing core components such as dataset choice, observation design, action space, reward calculation, and learning schemes, forming a foundation for the planner. Hestia goes beyond prior next-best-view approaches and traditional capture systems through integration and validation in a real-world setup, where a drone serves as a mobile sensor for active scene exploration. Experimental results show that Hestia performs robustly across three datasets and translated object settings in the NVIDIA IsaacLab environment, and proves feasible for real-world deployment.
- Abstract(参考訳): 3D再構成と新しいビュー合成の進歩により、効率よく、フォトリアリスティックなレンダリングが可能になったが、データ収集プロセスはほとんど手作業のままであり、時間と労力がかかる。
この課題に対処するため,本研究では,5-DoF次世代視点予測のための一般化可能なポリシを学習するために,強化学習を活用した階層的次世代自律データ収集(Hestia)を提案する。
従来のアプローチとは異なり、Hestiaはデータセットの選択、観察設計、アクション空間、報酬計算、学習スキームといったコアコンポーネントを提案し、プランナーの基盤を形成することによって、次のベストビュータスクを体系的に定義している。
Hestiaは、ドローンがアクティブなシーン探索のためのモバイルセンサーとして機能する現実世界のセットアップの統合と検証を通じて、それまでのベテランビューのアプローチや従来のキャプチャシステムを越えている。
実験の結果、HestiaはNVIDIA IsaacLab環境で3つのデータセットと変換されたオブジェクト設定に対して堅牢に動作し、現実のデプロイメントで実現可能であることが示された。
関連論文リスト
- A large-scale, physically-based synthetic dataset for satellite pose estimation [0.0]
本稿では,ハッブル宇宙望遠鏡(HST)を対象とするDLVS3-HST-V1データセットについて述べる。
データセットは、高度なリアルタイムおよびオフラインレンダリング技術を使用して生成され、高忠実度3Dモデル、ダイナミックライティング、物理的に正確な材料特性を統合する。
このパイプラインは、6-DoFのポーズとキーポイントデータ、セマンティックセグメンテーション、深さ、正規マップを備えた大規模でリッチな注釈付きイメージセットの作成をサポートする。
論文 参考訳(メタデータ) (2025-06-15T09:24:32Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - FrontierNet: Learning Visual Cues to Explore [54.8265603996238]
この研究は、3Dマップからゴールポーズを抽出する制限に対処するため、効率的な自律探索に2Dビジュアルキューを活用することを目的としている。
本稿では、FrontierNetをコアコンポーネントとする、視覚のみのフロンティアベースの探索システムを提案する。
提案手法は,既存の3次元目標抽出手法に代わるもので,早期探索効率の15%向上を実現している。
論文 参考訳(メタデータ) (2025-01-08T16:25:32Z) - Segmentation-aware Prior Assisted Joint Global Information Aggregated 3D Building Reconstruction [6.839442579589125]
マルチビューステレオは、3Dモデリング、精密なエンジニアリングサーベイ、定量的分析、モニタリングとメンテナンスを促進することで、土木工学において重要な役割を担っている。
しかし,Multi-View Stereoアルゴリズムは,大規模ビルディングシーン内の弱テクスチャ領域を再構築する際の課題に直面している。
これらの領域では、画素のステレオマッチングがしばしば失敗し、不正確な深さ推定につながる。
本稿では,弱テクスチャ領域を正確に分割し,その平面前処理を高精度に構築するアルゴリズムを提案する。
この関数は、深さ推定更新プロセス中に幾何学的整合性に制約された事前候補セットのグローバル情報に基づいて最適平面事前情報を選択する。
論文 参考訳(メタデータ) (2024-10-24T04:59:44Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。