論文の概要: HyperPose: Camera Pose Localization using Attention Hypernetworks
- arxiv url: http://arxiv.org/abs/2303.02610v1
- Date: Sun, 5 Mar 2023 08:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 18:44:25.321064
- Title: HyperPose: Camera Pose Localization using Attention Hypernetworks
- Title(参考訳): HyperPose: Attention Hypernetworks を用いたカメラポインターのローカライゼーション
- Authors: Ron Ferens, Yosi Keller
- Abstract要約: カメラポーズのローカライゼーションにおけるアテンション・ハイパーネットの利用を提案する。
提案手法は,現代データセットの最先端手法と比較して,優れた結果が得られる。
- 参考スコア(独自算出の注目度): 6.700873164609009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose the use of attention hypernetworks in camera pose
localization. The dynamic nature of natural scenes, including changes in
environment, perspective, and lighting, creates an inherent domain gap between
the training and test sets that limits the accuracy of contemporary
localization networks. To overcome this issue, we suggest a camera pose
regressor that integrates a hypernetwork. During inference, the hypernetwork
generates adaptive weights for the localization regression heads based on the
input image, effectively reducing the domain gap. We also suggest the use of a
Transformer-Encoder as the hypernetwork, instead of the common multilayer
perceptron, to derive an attention hypernetwork. The proposed approach achieves
superior results compared to state-of-the-art methods on contemporary datasets.
To the best of our knowledge, this is the first instance of using hypernetworks
in camera pose regression, as well as using Transformer-Encoders as
hypernetworks. We make our code publicly available.
- Abstract(参考訳): 本研究では,カメラのポーズ定位における注意ハイパーネットワークの利用を提案する。
環境、視点、照明の変化を含む自然のシーンのダイナミックな性質は、現代のローカライズネットワークの精度を制限するトレーニングとテストセットの間に固有のドメインギャップを生み出します。
この問題を克服するために,ハイパーネットワークを統合したカメラポーズレグレッサーを提案する。
推定中、ハイパーネットワークは入力画像に基づいて局在回帰ヘッドの適応重みを生成し、ドメインギャップを効果的に低減する。
また,マルチ層パーセプトロンの代わりにTransformer-Encoderをハイパーネットワークとして用いることで,注目ハイパーネットワークを実現することも提案する。
提案手法は,現代データセットの最先端手法と比較して優れた結果が得られる。
私たちの知る限りでは、ハイパーネットワークをカメラポーズのレグレッションに、Transformer-Encodersをハイパーネットワークとして使用する最初の例です。
コードを公開しています。
関連論文リスト
- ReGround: Improving Textual and Spatial Grounding at No Cost [12.944046673902415]
空間的接地は、ゲートされた自己意図から横断的な意図への逐次的な流れによって、しばしばテキスト的接地よりも優れている。
このようなバイアスは、ネットワークアーキテクチャを単に書き換えることによって、どちらも精度を犠牲にすることなく、大幅に軽減できることを示す。
論文 参考訳(メタデータ) (2024-03-20T13:37:29Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - HyperE2VID: Improving Event-Based Video Reconstruction via Hypernetworks [16.432164340779266]
イベントベースビデオ再構成のための動的ニューラルネットワークアーキテクチャであるHyperE2VIDを提案する。
提案手法では,ハイパーネットワークを用いてコンテキスト融合モジュールによって誘導される画素ごとの適応フィルタを生成する。
論文 参考訳(メタデータ) (2023-05-10T18:00:06Z) - Magnitude Invariant Parametrizations Improve Hypernetwork Learning [0.0]
Hypernetworksは、別のニューラルネットワークのパラメータを予測する強力なニューラルネットワークである。
トレーニングは通常、非ハイパーネットワークモデルよりもはるかにゆっくりと収束する。
我々は、ハイパーネットワークのトレーニングの課題に寄与する、基本的な未確認の問題を識別する。
我々は、MIP(Magnitude Invariant Parametrizations)と呼ばれる改訂されたハイパーネットワークの定式化を用いて、この問題に対する簡単な解決策を提案する。
論文 参考訳(メタデータ) (2023-04-15T22:18:29Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing [2.362412515574206]
HyperStyleは、StyleGANの重みを変調して、潜在空間の編集可能な領域で所定の画像を忠実に表現することを学ぶ。
HyperStyleは、エンコーダのほぼリアルタイム推論機能を備えた最適化手法に匹敵する再構成を行う。
論文 参考訳(メタデータ) (2021-11-30T18:56:30Z) - Global and Local Alignment Networks for Unpaired Image-to-Image
Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。
既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。
我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。
本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文 参考訳(メタデータ) (2021-11-19T18:01:54Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z) - Molecule Property Prediction and Classification with Graph Hypernetworks [113.38181979662288]
ネットワークをハイパーネットワークに置き換えることで性能が向上することを示す。
ハイパーネットワークの適用において大きな困難は、安定性の欠如である。
最近の研究は、エラー訂正コードのコンテキストにおいて、ハイパーネットワークのトレーニング不安定性に取り組んでいる。
論文 参考訳(メタデータ) (2020-02-01T16:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。