論文の概要: NVS-HO: A Benchmark for Novel View Synthesis of Handheld Objects
- arxiv url: http://arxiv.org/abs/2602.05822v1
- Date: Thu, 05 Feb 2026 16:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.031425
- Title: NVS-HO: A Benchmark for Novel View Synthesis of Handheld Objects
- Title(参考訳): NVS-HO: ハンドヘルドオブジェクトの新しいビュー合成のためのベンチマーク
- Authors: Musawar Ali, Manuel Carranza-García, Nicola Fioraio, Samuele Salti, Luigi Di Stefano,
- Abstract要約: RGB入力のみを用いた実環境におけるハンドヘルドオブジェクトの新たなビュー合成のための最初のベンチマークであるNVS-HOを提案する。
1)静的カメラの前で被写体を操作するハンドヘルドシーケンス、(2)ChArUco基板上に被写体を固定し、マーカー検出による正確なカメラポーズを提供するボードシーケンスの2つの補完RGBシーケンスに記録する。
- 参考スコア(独自算出の注目度): 18.302369490664763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose NVS-HO, the first benchmark designed for novel view synthesis of handheld objects in real-world environments using only RGB inputs. Each object is recorded in two complementary RGB sequences: (1) a handheld sequence, where the object is manipulated in front of a static camera, and (2) a board sequence, where the object is fixed on a ChArUco board to provide accurate camera poses via marker detection. The goal of NVS-HO is to learn a NVS model that captures the full appearance of an object from (1), whereas (2) provides the ground-truth images used for evaluation. To establish baselines, we consider both a classical SfM pipeline and a state-of-the-art pre-trained feed-forward neural network (VGGT) as pose estimators, and train NVS models based on NeRF and Gaussian Splatting. Our experiments reveal significant performance gaps in current methods under unconstrained handheld conditions, highlighting the need for more robust approaches. NVS-HO thus offers a challenging real-world benchmark to drive progress in RGB-based novel view synthesis of handheld objects.
- Abstract(参考訳): RGB入力のみを用いた実環境におけるハンドヘルドオブジェクトのビュー生成のための最初のベンチマークであるNVS-HOを提案する。
1)静的カメラの前で被写体を操作するハンドヘルドシーケンス、(2)ChArUco基板上に被写体を固定し、マーカー検出による正確なカメラポーズを提供するボードシーケンスの2つの補完RGBシーケンスに記録する。
NVS-HOの目的は、(1)からオブジェクトの完全な外観をキャプチャするNVSモデルを学ぶことである。
ベースラインを確立するために、従来のSfMパイプラインと最先端の訓練済みフィードフォワードニューラルネットワーク(VGGT)の両方をポーズ推定器として検討し、NeRFとガウスススプラッティングに基づくNVSモデルを訓練する。
本実験は,制約のない手持ち条件下での現行手法の性能差を顕著に明らかにし,より堅牢なアプローチの必要性を浮き彫りにした。
したがって、NVS-HOは、RGBベースのハンドヘルドオブジェクトの新規ビュー合成の進歩を促進するために、挑戦的な実世界のベンチマークを提供する。
関連論文リスト
- NOCTIS: Novel Object Cyclic Threshold based Instance Segmentation [42.84923737757637]
新規オブジェクトサイクル閾値ベースインスタンス(NOCTIS)と呼ばれる新しいトレーニングフリーフレームワークを提案する。
NOCTISは2つの事前訓練されたモデルを統合する: Grounded-SAM 2 for object proposals with exact bounding box and corresponding segmentation masks; DINOv2 for robust class and patch embeddeds。
実験により,NOCTISはトレーニングや微調整を伴わずに,平均APスコアに関する最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2025-07-02T08:23:14Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開します。
論文 参考訳(メタデータ) (2024-12-06T18:41:39Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Self-Supervised Object Detection via Generative Image Synthesis [106.65384648377349]
本稿では,自己教師対象検出のための制御可能なGANを用いたエンドツーエンド分析合成フレームワークを提案する。
オブジェクトの合成と検出を学習するために、ボックスアノテーションを使用せずに、実世界のイメージのコレクションを使用します。
我々の研究は、制御可能なGAN画像合成という新しいパラダイムを導入することで、自己教師対象検出の分野を前進させる。
論文 参考訳(メタデータ) (2021-10-19T11:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。