論文の概要: Semantic Ray: Learning a Generalizable Semantic Field with
Cross-Reprojection Attention
- arxiv url: http://arxiv.org/abs/2303.13014v1
- Date: Thu, 23 Mar 2023 03:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:53:07.680609
- Title: Semantic Ray: Learning a Generalizable Semantic Field with
Cross-Reprojection Attention
- Title(参考訳): セマンティクスレイ: クロスリプロジェクションを考慮した一般化可能なセマンティクスフィールドの学習
- Authors: Fangfu Liu, Chubin Zhang, Yu Zheng, Yueqi Duan
- Abstract要約: 我々は,正確で効率的で一般化可能な複数のシーンから意味的放射場を学習することを目指している。
本稿では,その多視点再計画から線方向のセマンティック情報を完全に活用するセマンティック・レイを提案する。
実験により、S線は複数のシーンから学習できることが示され、見えないシーンに適応する強力な一般化能力を示す。
- 参考スコア(独自算出の注目度): 18.512876541741726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we aim to learn a semantic radiance field from multiple scenes
that is accurate, efficient and generalizable. While most existing NeRFs target
at the tasks of neural scene rendering, image synthesis and multi-view
reconstruction, there are a few attempts such as Semantic-NeRF that explore to
learn high-level semantic understanding with the NeRF structure. However,
Semantic-NeRF simultaneously learns color and semantic label from a single ray
with multiple heads, where the single ray fails to provide rich semantic
information. As a result, Semantic NeRF relies on positional encoding and needs
to train one specific model for each scene. To address this, we propose
Semantic Ray (S-Ray) to fully exploit semantic information along the ray
direction from its multi-view reprojections. As directly performing dense
attention over multi-view reprojected rays would suffer from heavy
computational cost, we design a Cross-Reprojection Attention module with
consecutive intra-view radial and cross-view sparse attentions, which
decomposes contextual information along reprojected rays and cross multiple
views and then collects dense connections by stacking the modules. Experiments
show that our S-Ray is able to learn from multiple scenes, and it presents
strong generalization ability to adapt to unseen scenes.
- Abstract(参考訳): 本稿では,精度,効率,一般化可能な複数のシーンから意味的放射場を学習することを目的とする。
既存のほとんどのNeRFは、ニューラルシーンレンダリング、画像合成、マルチビュー再構成といったタスクを対象としているが、セマンティック・NeRFのような、NeRF構造による高度なセマンティック理解を学習するための試みはいくつかある。
しかし、Semantic-NeRFは複数の頭を持つ1つの光線から色とセマンティックラベルを同時に学習し、そこでは1つの光線がリッチなセマンティック情報を提供しない。
その結果、セマンティックNeRFは位置エンコーディングに依存し、シーンごとに1つの特定のモデルをトレーニングする必要がある。
これを解決するために,多視点再計画から線方向のセマンティック情報を完全に活用するセマンティック・レイ(S-Ray)を提案する。
マルチビュー・リプロジェクション・レイに対して直接注目を集中させると計算コストのかかるクロス・リジェクション・アテンション・モジュールを設計し、連続的なビュー内ラジアルおよびクロスビュー・スパース・アテンションを設計し、リジェクション・レイに沿ってコンテキスト情報を分解し、複数のビューを横断し、モジュールを積み重ねて密接な接続を収集する。
実験により、S線は複数のシーンから学習できることが示され、見えないシーンに適応する強力な一般化能力を示す。
関連論文リスト
- MuRF: Multi-Baseline Radiance Fields [117.55811938988256]
スパースビュー合成におけるフィードフォワードアプローチであるmulti-Baseline Radiance Fields(MuRF)を提案する。
MuRFは、複数の異なるベースライン設定で最先端のパフォーマンスを達成する。
また、Mip-NeRF 360データセット上でゼロショットの一般化能力を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:56Z) - Cross-Ray Neural Radiance Fields for Novel-view Synthesis from
Unconstrained Image Collections [38.80819389602147]
我々は人間の知覚過程を模倣するクロスレイネRF(CR-NeRF)を提案する。
CR-NeRFは、画像と同じ外観で新しいビューを合成する。
理論的には、複数の光線にまたがる相関を利用して、よりグローバルな情報を取得することが期待できる。
論文 参考訳(メタデータ) (2023-07-16T16:29:40Z) - Multi-Space Neural Radiance Fields [74.46513422075438]
既存のニューラルレージアンス場(NeRF)法は反射物体の存在に悩まされている。
並列部分空間における特徴場の群を用いてシーンを表現するマルチスペースニューラルレイディアンス場(MS-NeRF)を提案する。
提案手法は,高品質シーンのレンダリングにおいて,既存の単一空間NeRF法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-07T13:11:07Z) - MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular
Videos [23.09306118872098]
フレーム間の特徴対応制約と特徴トラジェクトリによる特徴特徴とシーンフローを同時に学習するMonoNeRFを提案する。
実験の結果、MonoNeRFは複数のシーンから学習でき、シーン編集、見えないフレーム合成、高速な新規シーン適応などの新しいアプリケーションをサポートしています。
論文 参考訳(メタデータ) (2022-12-26T09:20:55Z) - NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex
Real-World Scenes [80.59831861186227]
本論文では,複雑な現実世界のシーンに対して,NeRFを用いたオブジェクトセグメンテーションのための自己教師型学習の探索を行う。
我々のフレームワークは、NeRF(NeRF with Self-supervised Object NeRF-SOS)と呼ばれ、NeRFモデルがコンパクトな幾何認識セグメンテーションクラスタを蒸留することを奨励している。
他の2Dベースの自己教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。
論文 参考訳(メタデータ) (2022-09-19T06:03:17Z) - Generalizable Patch-Based Neural Rendering [46.41746536545268]
未知のシーンの新たなビューを合成できるモデル学習のための新しいパラダイムを提案する。
本手法は,シーンから採取したパッチの集合からのみ,新規シーンにおける対象光線の色を直接予測することができる。
本手法は,従来よりも少ないデータでトレーニングされた場合であっても,目立たないシーンの新たなビュー合成において,最先端のビュー合成よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:57:04Z) - SinNeRF: Training Neural Radiance Fields on Complex Scenes from a Single
Image [85.43496313628943]
本稿では,一眼レフ(SinNeRF)フレームワークについて述べる。
SinNeRFは半教師付き学習プロセスを構築し,幾何学的擬似ラベルを導入・伝播する。
NeRF合成データセット、Local Light Field Fusionデータセット、DTUデータセットなど、複雑なシーンベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2022-04-02T19:32:42Z) - InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering [55.70938412352287]
ニューラルな暗黙表現に基づく数ショットの新規ビュー合成のための情報理論正規化手法を提案する。
提案手法は,不十分な視点で発生する潜在的な復元の不整合を最小化する。
複数の標準ベンチマークにおいて,既存のニューラルビュー合成手法と比較して一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2021-12-31T11:56:01Z) - MVSNeRF: Fast Generalizable Radiance Field Reconstruction from
Multi-View Stereo [52.329580781898116]
MVSNeRFは、ビュー合成のための神経放射場を効率的に再構築できる新しいニューラルレンダリング手法である。
高密度にキャプチャされた画像に対して,シーン毎の最適化を考慮に入れたニューラルネットワークの先行研究とは異なり,高速ネットワーク推論により,近傍の3つの入力ビューのみからラミアンスフィールドを再構成できる汎用ディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:15:23Z) - pixelNeRF: Neural Radiance Fields from One or Few Images [20.607712035278315]
pixelNeRFは、1つまたは少数の入力画像に条件付された連続的なニューラルシーン表現を予測する学習フレームワークである。
本研究では,単一画像の新規ビュー合成タスクのためのShapeNetベンチマーク実験を行った。
いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-12-03T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。