論文の概要: Deformably-Scaled Transposed Convolution
- arxiv url: http://arxiv.org/abs/2210.09446v1
- Date: Mon, 17 Oct 2022 21:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:01:30.197410
- Title: Deformably-Scaled Transposed Convolution
- Title(参考訳): 変形スケールトランスポーション・コンボリューション
- Authors: Stefano B. Blumberg, Daniele Rav\'i, Mou-Cheng Xu, Matteo Figini,
Iasonas Kokkinos, Daniel C. Alexander
- Abstract要約: 我々は、変換された畳み込みを再検討し、画像に情報を選択的に配置できる新しいレイヤを導入する。
私たちの新しいレイヤは、2Dおよび3Dアップサンプリングオペレータのドロップイン代替として使用することができ、コードは公開されます。
- 参考スコア(独自算出の注目度): 17.4596321623511
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transposed convolution is crucial for generating high-resolution outputs, yet
has received little attention compared to convolution layers. In this work we
revisit transposed convolution and introduce a novel layer that allows us to
place information in the image selectively and choose the `stroke breadth' at
which the image is synthesized, whilst incurring a small additional parameter
cost. For this we introduce three ideas: firstly, we regress offsets to the
positions where the transpose convolution results are placed; secondly we
broadcast the offset weight locations over a learnable neighborhood; and
thirdly we use a compact parametrization to share weights and restrict offsets.
We show that simply substituting upsampling operators with our novel layer
produces substantial improvements across tasks as diverse as instance
segmentation, object detection, semantic segmentation, generative image
modeling, and 3D magnetic resonance image enhancement, while outperforming all
existing variants of transposed convolutions. Our novel layer can be used as a
drop-in replacement for 2D and 3D upsampling operators and the code will be
publicly available.
- Abstract(参考訳): 変換畳み込みは高解像度の出力を生成するために重要であるが、畳み込み層に比べてほとんど注目されていない。
本研究では,変換された畳み込みを再検討し,画像に情報を選択的に配置し,画像が合成される「ストローク幅」を選択することができる新しいレイヤを導入する。
これには,まず,畳み込み結果が配置された位置にオフセットを回帰する,次に学習可能な近傍にオフセットウェイトロケーションをブロードキャストする,次に,コンパクトパラメトリゼーションを用いてウェイトの共有とオフセットの制限を行う,という3つのアイデアを導入する。
本報告では,アップサンプリング演算子を新しいレイヤに置換するだけで,インスタンスセグメンテーション,オブジェクト検出,セマンティックセグメンテーション,生成画像モデリング,3次元磁気共鳴画像強調といったタスクを多種多様なタスクで実現できることを示す。
私たちの新しいレイヤは、2Dおよび3Dアップサンプリングオペレータのドロップイン代替として使用することができ、コードは公開されます。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections [8.261637198675151]
制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。
写真コレクションからのシーン再構築のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。
提案手法は、新しいビューのレンダリング品質と、高収束・レンダリング速度の外観合成において、既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-06-04T15:17:37Z) - CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians [18.42203035154126]
2次元画像空間で制御できる構造付きガウス表現を導入する。
次に、ガウス群、特にその位置を制約し、最適化中に独立に動くのを防ぐ。
我々は,様々な場面における最先端のスパースビュー NeRF ベースのアプローチと比較して,顕著な改善を示した。
論文 参考訳(メタデータ) (2024-03-28T15:27:13Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Meta-Auxiliary Network for 3D GAN Inversion [18.777352198191004]
本稿では,新たに開発された3D GANをジェネレータとして利用しながら,新しいメタ補助フレームワークを提案する。
最初の段階では、オフザシェルフインバージョン技術を用いて、入力画像を編集可能な潜在コードに変換する。
補助的ネットワークは、与えられた画像を入力としてジェネレータパラメータを洗練し、畳み込み層の重み付けとボリュームレンダリングのサンプリング位置のオフセットを予測する。
第2段階では、入力された画像に補助ネットワークを高速に適応させるメタラーニングを行い、その後、メタラーニングされた補助ネットワークを介して最終再構成画像を合成する。
論文 参考訳(メタデータ) (2023-05-18T11:26:27Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Learning Local Displacements for Point Cloud Completion [93.54286830844134]
本稿では,3次元点雲として表現された部分的スキャンからオブジェクトとセマンティックシーンを補完する手法を提案する。
アーキテクチャはエンコーダ-デコーダ構造内で連続的に使用される3つの新しいレイヤに依存している。
オブジェクトと屋内の両方のシーン完了タスクにおけるアーキテクチャの評価を行い、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:31:37Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - AFTer-UNet: Axial Fusion Transformer UNet for Medical Image Segmentation [19.53151547706724]
トランスをベースとしたモデルは、医療画像セグメンテーションにおけるこれらの手法の探求に注目されている。
本稿では、畳み込み層の長周期モデリングにおける詳細特徴抽出能力と変圧器強度の両面を活かしたAxial Fusion Transformer UNet(AFTer-UNet)を提案する。
パラメータが少なく、GPUメモリのトレーニングも従来のトランスフォーマーベースのモデルよりも少ない。
論文 参考訳(メタデータ) (2021-10-20T06:47:28Z) - Group Shift Pointwise Convolution for Volumetric Medical Image
Segmentation [31.72090839643412]
本稿では,3次元畳み込みの有効性と効率を向上させるために,GSP-Conv(Group Shift Pointwise Convolution)を提案する。
GSP-Convは1x1x1カーネルで3D畳み込みをポイントワイズに単純化し、モデルパラメータやFLOPの数を劇的に削減する。
以上の結果から,本手法は3次元畳み込みモデルと同等あるいはそれ以上の性能が得られた。
論文 参考訳(メタデータ) (2021-09-26T15:27:33Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。