論文の概要: IntelliCap: Intelligent Guidance for Consistent View Sampling
- arxiv url: http://arxiv.org/abs/2508.13043v1
- Date: Mon, 18 Aug 2025 16:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.469885
- Title: IntelliCap: Intelligent Guidance for Consistent View Sampling
- Title(参考訳): IntelliCap: 一貫性のあるビューサンプリングのためのIntelligent Guidance
- Authors: Ayaka Yasunaga, Hideo Saito, Dieter Schmalstieg, Shohei Mori,
- Abstract要約: 高品質なビュー合成には一様で高密度なビューサンプリングが必要である。
画像取得中に人間を誘導する既存のアプローチは、単一のオブジェクトに集中している。
複数スケールでスキャンを行うための新しい位置可視化手法を提案する。
- 参考スコア(独自算出の注目度): 14.791526418738218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis from images, for example, with 3D Gaussian splatting, has made great progress. Rendering fidelity and speed are now ready even for demanding virtual reality applications. However, the problem of assisting humans in collecting the input images for these rendering algorithms has received much less attention. High-quality view synthesis requires uniform and dense view sampling. Unfortunately, these requirements are not easily addressed by human camera operators, who are in a hurry, impatient, or lack understanding of the scene structure and the photographic process. Existing approaches to guide humans during image acquisition concentrate on single objects or neglect view-dependent material characteristics. We propose a novel situated visualization technique for scanning at multiple scales. During the scanning of a scene, our method identifies important objects that need extended image coverage to properly represent view-dependent appearance. To this end, we leverage semantic segmentation and category identification, ranked by a vision-language model. Spherical proxies are generated around highly ranked objects to guide the user during scanning. Our results show superior performance in real scenes compared to conventional view sampling strategies.
- Abstract(参考訳): 例えば3次元ガウススプラッティングによる画像からの新たなビュー合成は大きな進歩を遂げた。
忠実さとスピードのレンダリングは、バーチャルリアリティーアプリケーションの要求に対しても準備が整った。
しかし、これらのレンダリングアルゴリズムの入力画像の収集において、人間を補助する問題は、はるかに少なくなった。
高品質なビュー合成には一様で高密度なビューサンプリングが必要である。
残念ながら、これらの要件は、シーン構造や撮影過程の理解が欠如している、急いでいる、不愉快な、人間のカメラオペレーターによって対処されがちである。
画像取得中に人間を誘導する既存のアプローチは、単一のオブジェクトに集中するか、ビュー依存の材料特性を無視する。
複数スケールでスキャンを行うための新しい位置可視化手法を提案する。
シーンのスキャン中に、ビュー依存の外観を適切に表現するために画像カバレッジを拡大する必要がある重要なオブジェクトを識別する。
この目的のために、視覚言語モデルでランク付けされたセマンティックセグメンテーションとカテゴリ識別を利用する。
球面プロキシは、高いランクのオブジェクトを中心に生成され、スキャン中にユーザを誘導する。
本研究は,従来のビューサンプリング手法と比較して,実シーンにおける優れた性能を示す。
関連論文リスト
- Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views [7.305342793164903]
新規なビュー合成は, つかみポーズを生成する際に, 追加のコンテキストを提供できることを示す最初の結果を示す。
Graspnet-1billionデータセットに対する実験により、新しいビューが力量閉鎖の把握に寄与したことが示された。
将来的には、単一入力画像で構築した放射場からのグリップ抽出を改善するために、この作業を拡張できることを願っている。
論文 参考訳(メタデータ) (2025-05-16T17:23:09Z) - Knowledge-Guided Prompt Learning for Deepfake Facial Image Detection [54.26588902144298]
ディープフェイク顔画像検出のための知識誘導型プロンプト学習法を提案する。
具体的には、学習可能なプロンプトの最適化を導くための専門家知識として、大規模言語モデルから偽造関連プロンプトを抽出する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-01-01T02:18:18Z) - Caption-Driven Explorations: Aligning Image and Text Embeddings through Human-Inspired Foveated Vision [3.3295510777293837]
本稿では,キャプションタスク中の人間の注意力を調べるために,キャプションとクリックコンセント画像探索を備えたデータセットであるCapMIT1003を紹介する。
また、NevaClipは、CLIPモデルとNeVAアルゴリズムを組み合わせることで、視覚スキャンパスを予測するゼロショット方式である。
論文 参考訳(メタデータ) (2024-08-19T12:41:46Z) - Sampling for View Synthesis: From Local Light Field Fusion to Neural Radiance Fields and Beyond [27.339452004523082]
局所光電場融合は、サンプルビューの不規則なグリッドから現実的なビュー合成を行うアルゴリズムを提案する。
我々は、最大4000倍のビューを用いて、Nyquistレートビューサンプリングの知覚品質を実現する。
スパースおよび単一画像ビュー合成に関する最近の研究結果のいくつかを再現する。
論文 参考訳(メタデータ) (2024-08-08T16:56:03Z) - MetaCap: Meta-learning Priors from Multi-View Imagery for Sparse-view Human Performance Capture and Rendering [91.76893697171117]
そこで本研究では, 高精度かつ高品質な幾何復元と新規なビュー合成手法を提案する。
私たちのキーとなるアイデアは、低解像度のマルチビュービデオからのみ、放射界の重みをメタラーニングすることです。
新しいデータセットWildDynaCap(ワイルドダイナキャップ)は、密集したカメラドームと細いカメラリグの両方に収まる被写体を含んでいる。
論文 参考訳(メタデータ) (2024-03-27T17:59:54Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。