論文の概要: STR-GQN: Scene Representation and Rendering for Unknown Cameras Based on
Spatial Transformation Routing
- arxiv url: http://arxiv.org/abs/2108.03072v1
- Date: Fri, 6 Aug 2021 12:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:29:37.253003
- Title: STR-GQN: Scene Representation and Rendering for Unknown Cameras Based on
Spatial Transformation Routing
- Title(参考訳): STR-GQN:空間変換ルーティングに基づく未知カメラのシーン表現とレンダリング
- Authors: Wen-Cheng Chen, Min-Chun Hu, Chu-Song Chen
- Abstract要約: 本研究では,空間特性を幾何的事前を適用することなくモデル化する空間変換ルーティング(STR)機構を提案する。
STRは、空間変換をメッセージパッシングプロセスとして扱い、ビューポーズとルーティングウェイトの関係は、エンドツーエンドのトレーニング可能なニューラルネットワークによってモデル化される。
- 参考スコア(独自算出の注目度): 18.954990006113114
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Geometry-aware modules are widely applied in recent deep learning
architectures for scene representation and rendering. However, these modules
require intrinsic camera information that might not be obtained accurately. In
this paper, we propose a Spatial Transformation Routing (STR) mechanism to
model the spatial properties without applying any geometric prior. The STR
mechanism treats the spatial transformation as the message passing process, and
the relation between the view poses and the routing weights is modeled by an
end-to-end trainable neural network. Besides, an Occupancy Concept Mapping
(OCM) framework is proposed to provide explainable rationals for scene-fusion
processes. We conducted experiments on several datasets and show that the
proposed STR mechanism improves the performance of the Generative Query Network
(GQN). The visualization results reveal that the routing process can pass the
observed information from one location of some view to the associated location
in the other view, which demonstrates the advantage of the proposed model in
terms of spatial cognition.
- Abstract(参考訳): ジオメトリアウェアモジュールは、シーン表現とレンダリングのための最近のディープラーニングアーキテクチャで広く適用されている。
しかし、これらのモジュールは、正確に取得できない固有のカメラ情報を必要とする。
本稿では,空間特性を幾何学的事前を適用することなくモデル化する空間変換ルーティング(STR)機構を提案する。
STR機構は、空間変換をメッセージパッシングプロセスとして扱い、ビューポーズとルーティングウェイトの関係をエンドツーエンドのトレーニング可能なニューラルネットワークでモデル化する。
さらに、シーン融合プロセスに説明可能な理性を提供するために、OCM(Occupancy Concept Mapping)フレームワークが提案されている。
本研究では,いくつかのデータセットについて実験を行い,提案するstr機構が生成型クエリネットワーク(gqn)の性能を向上させることを示した。
可視化の結果,観測された情報をあるビューのある場所から他のビューの関連する場所に渡すことができ,空間認知の観点から提案したモデルの利点が示されることがわかった。
関連論文リスト
- Image registration is a geometric deep learning task [9.596330435868781]
幾何学的深層学習の原理を応用した,データ駆動の変形可能な画像登録のための新しいパラダイムを提案する。
本手法は, 多数の医用画像登録タスクにおいて, 変形をフルに把握する能力について検討する。
論文 参考訳(メタデータ) (2024-12-17T19:47:10Z) - The Multiscale Surface Vision Transformer [10.833580445244094]
表面深層学習のためのバックボーンアーキテクチャとして,Multiscale Surface Vision Transformer (MS-SiT)を導入した。
以上の結果から,MS-SiTは新生児の表現型予測タスクにおいて,既存の表面深層学習法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-21T15:00:17Z) - Learning Detail-Structure Alternative Optimization for Blind
Super-Resolution [69.11604249813304]
そこで我々は,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。
DSSRでは、細部構造変調モジュール(DSMM)が構築され、画像の詳細と構造の相互作用と協調を利用する。
本手法は既存の手法に対して最先端の手法を実現する。
論文 参考訳(メタデータ) (2022-12-03T14:44:17Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Combining Local and Global Pose Estimation for Precise Tracking of
Similar Objects [2.861848675707602]
類似・非テクスチャオブジェクトに対する多目的6D検出・追跡パイプラインを提案する。
合成画像のみを訓練した新しいネットワークアーキテクチャは、複数のオブジェクトの同時ポーズ推定を可能にする。
建設現場における実際のAR支援アプリケーションにおいて,システムがどのように利用できるかを示す。
論文 参考訳(メタデータ) (2022-01-31T14:36:57Z) - Self-supervised Correlation Mining Network for Person Image Generation [9.505343361614928]
人物画像生成は、ソース画像の非剛性変形を実現することを目的としている。
特徴空間のソース画像を再構成する自己教師付き相関マイニングネットワーク(SCM-Net)を提案する。
クロススケールポーズ変換の忠実度を向上させるために,グラフに基づく身体構造保持損失を提案する。
論文 参考訳(メタデータ) (2021-11-26T03:57:46Z) - Retrieval and Localization with Observation Constraints [12.010135672015704]
RLOCSと呼ばれる視覚的再局在化手法を提案する。
画像検索、意味整合性、幾何学的検証を組み合わせて正確な推定を行う。
本手法は, ローカライゼーションベンチマークにおいて多くの性能向上を実現している。
論文 参考訳(メタデータ) (2021-08-19T06:14:33Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。