論文の概要: RePAST: Relative Pose Attention Scene Representation Transformer
- arxiv url: http://arxiv.org/abs/2304.00947v2
- Date: Mon, 10 Apr 2023 13:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:56:52.814013
- Title: RePAST: Relative Pose Attention Scene Representation Transformer
- Title(参考訳): 再現:相対ポーズ注意シーン表現トランスフォーマ
- Authors: Aleksandr Safin, Daniel Duckworth, Mehdi S. M. Sajjadi
- Abstract要約: SRT(Scene Representation Transformer)はインタラクティブなレートで新しいビューを描画する手法である。
本稿では、参照フレームを入力時に固定する代わりに、トランスフォーマーのアテンション機構に直接ペアワイズ対応カメラのポーズ情報を注入する。
- 参考スコア(独自算出の注目度): 78.33038881681018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Scene Representation Transformer (SRT) is a recent method to render novel
views at interactive rates. Since SRT uses camera poses with respect to an
arbitrarily chosen reference camera, it is not invariant to the order of the
input views. As a result, SRT is not directly applicable to large-scale scenes
where the reference frame would need to be changed regularly. In this work, we
propose Relative Pose Attention SRT (RePAST): Instead of fixing a reference
frame at the input, we inject pairwise relative camera pose information
directly into the attention mechanism of the Transformers. This leads to a
model that is by definition invariant to the choice of any global reference
frame, while still retaining the full capabilities of the original method.
Empirical results show that adding this invariance to the model does not lead
to a loss in quality. We believe that this is a step towards applying fully
latent transformer-based rendering methods to large-scale scenes.
- Abstract(参考訳): SRT(Scene Representation Transformer)はインタラクティブなレートで新しいビューを描画する手法である。
SRTは任意に選択された参照カメラに対してカメラポーズを使用するため、入力ビューの順序に不変ではない。
その結果、SRTは参照フレームを定期的に変更する必要がある大規模シーンには直接適用できない。
本研究では,入力に基準フレームを固定する代わりに,対方向の相対カメラポーズ情報をトランスフォーマの注意機構に直接注入する相対ポーズ注意srt(repast)を提案する。
これは定義上、任意のグローバル参照フレームの選択に不変でありながら、元のメソッドの完全な能力を保っているモデルにつながる。
経験的な結果は、モデルにこの不変性を加えると品質が低下しないことを示している。
これは、完全に潜在的なトランスフォーマーベースのレンダリング方法を大規模シーンに適用するためのステップであると考えています。
関連論文リスト
- Pose-Free Generalizable Rendering Transformer [72.47072706742065]
PF-GRTは、Generalizable Rendering Transformer用のPose-Freeフレームワークである。
PF-GRTは局所相対座標系を用いてパラメータ化される。
データセットのゼロショットレンダリングによる実験では、フォトリアリスティック画像の生成において、優れた品質が得られることが明らかになった。
論文 参考訳(メタデータ) (2023-10-05T17:24:36Z) - CNN Injected Transformer for Image Exposure Correction [20.282217209520006]
畳み込みに基づく以前の露光補正法は、しばしば画像の露光偏差を生じさせる。
本稿では,CNN と Transformer の個々の強度を同時に活用する CNN インジェクトトランス (CIT) を提案する。
露光補正のためのハイブリッドアーキテクチャ設計に加えて、空間コヒーレンスを改善し、潜在的な色偏差を補正するために、慎重に定式化された損失関数のセットを適用する。
論文 参考訳(メタデータ) (2023-09-08T14:53:00Z) - Coarse-to-Fine Multi-Scene Pose Regression with Transformers [19.927662512903915]
多層パーセプトロン(MLP)ヘッドを持つ畳み込みバックボーンは、画像とラベルを使用してトレーニングされ、一度に単一の参照を埋め込む。
本稿では,トランスフォーマーを用いて,アクティベーションマップを自己注意で集約するためにエンコーダを使用するマルチシーン絶対カメラポーズ回帰を学習することを提案する。
提案手法は,屋内および屋外のベンチマークデータセットで評価され,マルチシーンおよび最先端の単一シーンの絶対ポーズ回帰器を超越していることが示されている。
論文 参考訳(メタデータ) (2023-08-22T20:43:31Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Learning to Localize in Unseen Scenes with Relative Pose Regressors [5.672132510411465]
相対的なポーズ回帰器(RPR)は、相対的な翻訳と回転をポーズラベル付き参照に推定することで、カメラをローカライズする。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
我々は、結合、投影、注意操作(Transformer)によるアグリゲーションを実装し、結果として生じる潜在コードから相対的なポーズパラメータを回帰することを学ぶ。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
論文 参考訳(メタデータ) (2023-03-05T17:12:50Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。