論文の概要: Interactive Segment Anything NeRF with Feature Imitation
- arxiv url: http://arxiv.org/abs/2305.16233v1
- Date: Thu, 25 May 2023 16:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:40:47.854663
- Title: Interactive Segment Anything NeRF with Feature Imitation
- Title(参考訳): 特徴を模倣した対話型セグメンテーションNeRF
- Authors: Xiaokang Chen, Jiaxiang Tang, Diwen Wan, Jingbo Wang, Gang Zeng
- Abstract要約: 我々は,NeRFを用いたゼロショットセマンティックセグメンテーションを実現するために,オフザシェルフ認識モデルのバックボーン特徴を模倣することを提案する。
本フレームワークは,意味的特徴を直接描画し,認識モデルからデコーダのみを適用することによって,セグメンテーションプロセスを再構築する。
さらに,学習したセマンティクスを抽出したメッシュ表面に投影することで,リアルタイムインタラクションを実現する。
- 参考スコア(独自算出の注目度): 20.972098365110426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the potential of enhancing Neural Radiance Fields
(NeRF) with semantics to expand their applications. Although NeRF has been
proven useful in real-world applications like VR and digital creation, the lack
of semantics hinders interaction with objects in complex scenes. We propose to
imitate the backbone feature of off-the-shelf perception models to achieve
zero-shot semantic segmentation with NeRF. Our framework reformulates the
segmentation process by directly rendering semantic features and only applying
the decoder from perception models. This eliminates the need for expensive
backbones and benefits 3D consistency. Furthermore, we can project the learned
semantics onto extracted mesh surfaces for real-time interaction. With the
state-of-the-art Segment Anything Model (SAM), our framework accelerates
segmentation by 16 times with comparable mask quality. The experimental results
demonstrate the efficacy and computational advantages of our approach. Project
page: \url{https://me.kiui.moe/san/}.
- Abstract(参考訳): 本稿では,NeRF(Neural Radiance Fields)のセマンティクスによる拡張の可能性について検討する。
NeRFはVRやデジタル創造のような現実世界のアプリケーションで有用であることが証明されているが、セマンティクスの欠如は複雑な場面におけるオブジェクトとの相互作用を妨げる。
本稿では,nerfを用いたゼロショットセマンティクスセグメンテーションを実現するために,市販知覚モデルのバックボーン特徴を模倣する。
本フレームワークは,意味的特徴を直接描画し,認識モデルからデコーダのみを適用することによってセグメンテーションプロセスを再構築する。
これにより、高価なバックボーンが不要になり、3D一貫性がもたらされる。
さらに,学習したセマンティクスを抽出したメッシュ表面に投影することで,リアルタイムインタラクションを実現する。
sam(state-of-the-art segment anything)モデルによって、当社のフレームワークはセグメンテーションを16倍高速化し、同等のマスク品質を実現しています。
実験の結果,本手法の有効性と計算能力が示された。
プロジェクトページ: \url{https://me.kiui.moe/san/}。
関連論文リスト
- Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Interactive Segmentation of Radiance Fields [7.9020917073764405]
個人空間における混合現実は、RFとして表されるシーンを理解し、操作する必要がある。
オブジェクトを細かな構造と外観で対話的に分割するISRF法を提案する。
論文 参考訳(メタデータ) (2022-12-27T16:33:19Z) - SegNeRF: 3D Part Segmentation with Neural Radiance Fields [63.12841224024818]
SegNeRFは、通常の放射場とセマンティックフィールドを統合するニューラルネットワーク表現である。
SegNeRFは、未確認のオブジェクトであっても、ポーズされた画像から幾何学、外観、意味情報を同時に予測することができる。
SegNeRFは、野生で撮影されたオブジェクトの1つのイメージから、対応する部分のセグメンテーションによって、明示的な3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2022-11-21T07:16:03Z) - NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex
Real-World Scenes [80.59831861186227]
本論文では,複雑な現実世界のシーンに対して,NeRFを用いたオブジェクトセグメンテーションのための自己教師型学習の探索を行う。
我々のフレームワークは、NeRF(NeRF with Self-supervised Object NeRF-SOS)と呼ばれ、NeRFモデルがコンパクトな幾何認識セグメンテーションクラスタを蒸留することを奨励している。
他の2Dベースの自己教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。
論文 参考訳(メタデータ) (2022-09-19T06:03:17Z) - Beyond RGB: Scene-Property Synthesis with Neural Radiance Fields [32.200557554874784]
本稿では,暗黙の3次元表現とニューラルレンダリングの最近の進歩を活用し,シーン理解への新たなアプローチを提案する。
ニューラル・レージアンス・フィールド(NeRF)の大成功を生かして,ネRFを用いたシーン・プロパリティ・シンセサイザーを導入する。
セマンティックセグメンテーション,表面正規推定,リシェーディング,キーポイント検出,エッジ検出など,統合されたフレームワーク下でのさまざまなシーン理解タスクへの対処を容易にする。
論文 参考訳(メタデータ) (2022-06-09T17:59:50Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Hierarchical Neural Implicit Pose Network for Animation and Motion
Retargeting [66.69067601079706]
HIPNetは、複数のポーズで訓練された暗黙のポーズネットワークである。
階層的な骨格に基づく表現を用いて、正準非正則空間上の符号付き距離関数を学習する。
種々の単目的および多目的のベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-12-02T03:25:46Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。