Fugu-MT 論文翻訳(概要): Estimating Extreme 3D Image Rotation with Transformer Cross-Attention

論文の概要: Estimating Extreme 3D Image Rotation with Transformer Cross-Attention

arxiv url: http://arxiv.org/abs/2303.02615v1
Date: Sun, 5 Mar 2023 09:07:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-07 18:44:41.956921
Title: Estimating Extreme 3D Image Rotation with Transformer Cross-Attention
Title（参考訳）: トランスクロスタッチによる極限3次元画像回転の推定
Authors: Shay Dekel, Yosi Keller
Abstract要約: 画像ペアのアクティベーションマップ間の相互アテンションを計算するために,CNN特徴マップとTransformer-Encoderを利用するクロスアテンションベースのアプローチを提案する。一般的に使用されている画像回転データセットやベンチマークに適用した場合、現代の最先端のスキームよりも優れた性能を示すことが実験的に示されている。
参考スコア（独自算出の注目度）: 6.700873164609009
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The estimation of large and extreme image rotation plays a key role in multiple computer vision domains, where the rotated images are related by a limited or a non-overlapping field of view. Contemporary approaches apply convolutional neural networks to compute a 4D correlation volume to estimate the relative rotation between image pairs. In this work, we propose a cross-attention-based approach that utilizes CNN feature maps and a Transformer-Encoder, to compute the cross-attention between the activation maps of the image pairs, which is shown to be an improved equivalent of the 4D correlation volume, used in previous works. In the suggested approach, higher attention scores are associated with image regions that encode visual cues of rotation. Our approach is end-to-end trainable and optimizes a simple regression loss. It is experimentally shown to outperform contemporary state-of-the-art schemes when applied to commonly used image rotation datasets and benchmarks, and establishes a new state-of-the-art accuracy on these datasets. We make our code publicly available.
Abstract（参考訳）: 大きな画像と極端な画像の回転の推定は、複数のコンピュータビジョン領域において重要な役割を果たす。現代のアプローチでは、畳み込みニューラルネットワークを用いて4次元相関体積を計算し、画像対間の相対回転を推定している。本研究では,cnn特徴マップとトランスフォーマーエンコーダを用いて画像ペアのアクティベーションマップ間のクロスアテンションを計算するクロスアテンションに基づく手法を提案する。提案手法では、高い注意スコアは回転の視覚的手がかりを符号化する画像領域に関連付けられる。私たちのアプローチはエンドツーエンドでトレーニング可能で、簡単な回帰損失を最適化します。一般的に使用されている画像回転データセットやベンチマークに適用した場合、現代の最先端のスキームよりも優れ、これらのデータセットに新たな最先端の精度を確立することが実験的に示されている。コードを公開しています。

関連論文リスト

Exploring Kernel Transformations for Implicit Neural Representations [57.2225355625268]
入射神経表現(INR)は、ニューラルネットワークを利用して、対応する属性に座標をマッピングすることで、信号を表現する。この研究は、モデル自体を変更せずに入出力のカーネル変換の効果を探求する先駆者となった。我々の発見の副産物は、スケールとシフトを組み合わせて、INRを無視できないオーバーヘッドで著しく向上させる、単純で効果的な方法である。
論文参考訳（メタデータ） (2025-04-07T04:43:50Z)
Multiview Image-Based Localization [2.594420805049218]
本稿では、IR方式のように、画像の特徴のみをデータベースに格納するハイブリッド手法を示す。 3Dの手法のように、潜伏した3Dの再構築に頼っているが、3Dのシーンの再構築は維持していない。提案手法では,7ScenesとCambridge Landmarksのデータセットのパフォーマンス向上に加えて,最先端技術と比較して,タイミングとメモリフットプリントの向上が図られている。
論文参考訳（メタデータ） (2025-03-30T20:00:31Z)
3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文参考訳（メタデータ） (2024-11-01T12:50:38Z)
Distributed Stochastic Optimization of a Neural Representation Network for Time-Space Tomography Reconstruction [4.689071714940848]
X線CT(Computerd tomography)を用いた動的事象や変形物体の4次元時間空間再構成は、非常に不適切な逆問題である。既存のアプローチでは、オブジェクトは数千から数百のX線投影計測画像の間静止していると仮定している。本稿では,新しい分散学習アルゴリズムを用いて学習した,分散暗黙的ニューラルネットワークを用いた4次元時間空間再構成を提案する。
論文参考訳（メタデータ） (2024-04-29T19:41:51Z)
Cross-domain and Cross-dimension Learning for Image-to-Graph Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文参考訳（メタデータ） (2024-03-11T10:48:56Z)
Plug-and-Play Regularization on Magnitude with Deep Priors for 3D Near-Field MIMO Imaging [0.0]
近接場レーダイメージングシステムは、隠蔽兵器の検出や医療診断など、幅広い用途で使用されている。 3次元複素数値反射率の問題は、その大きさに対して正則化を強制することによるものである。
論文参考訳（メタデータ） (2023-12-26T12:25:09Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Explicit Correspondence Matching for Generalizable Neural Radiance Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文参考訳（メタデータ） (2023-04-24T17:46:01Z)
Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文参考訳（メタデータ） (2023-03-08T14:54:51Z)
Extreme Rotation Estimation using Dense Correlation Volumes [73.35119461422153]
本稿では,RGB画像対の相対的な3次元回転を極端に推定する手法を提案する。画像が重なり合わなくても、それらの幾何学的関係に関して豊富な隠れた手がかりがあるかもしれないと観察する。本稿では,2つの入力画像間の全ての点を比較することで,そのような暗黙の手がかりを自動的に学習できるネットワーク設計を提案する。
論文参考訳（メタデータ） (2021-04-28T02:00:04Z)
Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。しかし、その推測時間は一般的に540p画像の秒数で遅い。本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文参考訳（メタデータ） (2020-12-01T23:58:16Z)
Fast Distance-based Anomaly Detection in Images Using an Inception-like Autoencoder [16.157879279661362]
畳み込みオートエンコーダ(CAE)を訓練し、画像の低次元表現を抽出する。画像の学習表現の低次元空間に距離ベースの異常検出器を用いる。その結果,予測性能が向上した。
論文参考訳（メタデータ） (2020-03-12T16:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。