Fugu-MT 論文翻訳(概要): HyperPose: Hypernetwork-Infused Camera Pose Localization and an Extended Cambridge Landmarks Dataset

論文の概要: HyperPose: Hypernetwork-Infused Camera Pose Localization and an Extended Cambridge Landmarks Dataset

arxiv url: http://arxiv.org/abs/2303.02610v2
Date: Tue, 04 Mar 2025 19:46:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:39.26933
Title: HyperPose: Hypernetwork-Infused Camera Pose Localization and an Extended Cambridge Landmarks Dataset
Title（参考訳）: HyperPose:ハイパーネットワークを応用したカメラポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスポスとケンブリッジのランドマークスポスポ
Authors: Ron Ferens, Yosi Keller,
Abstract要約: 絶対的なカメラポーズ回帰器にハイパーネットを利用するHyperPoseを提案する。自然の環境条件、視点、照明に起因する自然のシーンに固有の外観の変化は、トレーニングとテストデータセットの間に大きな領域差を生じさせる。推論中、ハイパーネットワークは特定の入力画像に基づいて局所化回帰ヘッドの適応重みを動的に計算する。
参考スコア（独自算出の注目度）: 15.055091971627832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose HyperPose, which utilizes hyper-networks in absolute camera pose regressors. The inherent appearance variations in natural scenes, attributable to environmental conditions, perspective, and lighting, induce a significant domain disparity between the training and test datasets. This disparity degrades the precision of contemporary localization networks. To mitigate this, we advocate for incorporating hypernetworks into single-scene and multiscene camera pose regression models. During inference, the hypernetwork dynamically computes adaptive weights for the localization regression heads based on the particular input image, effectively narrowing the domain gap. Using indoor and outdoor datasets, we evaluate the HyperPose methodology across multiple established absolute pose regression architectures. We also introduce and share the Extended Cambridge Landmarks (ECL), a novel localization dataset, based on the Cambridge Landmarks dataset, showing it in multiple seasons with significantly varying appearance conditions. Our empirical experiments demonstrate that HyperPose yields notable performance enhancements for single- and multi-scene architectures. We have made our source code, pre-trained models, and the ECL dataset openly available.
Abstract（参考訳）: 本研究では,絶対的なカメラポーズ回帰器にハイパーネットワークを利用するHyperPoseを提案する。自然の環境条件、視点、照明に起因する自然のシーンに固有の外観の変化は、トレーニングとテストデータセットの間に大きな領域差を生じさせる。この格差は、現代のローカライゼーションネットワークの精度を低下させる。これを緩和するために、ハイパーネットワークをシングルシーンおよびマルチシーンカメラのポーズ回帰モデルに組み込むことを提唱する。推論中、ハイパーネットワークは特定の入力画像に基づいて局所化回帰ヘッドの適応重みを動的に計算し、ドメインギャップを効果的に狭める。屋内および屋外のデータセットを用いて、複数の確立された絶対ポーズ回帰アーキテクチャにおけるHyperPose手法を評価する。また,Cambridge Landmarksデータセットに基づく新しいローカライゼーションデータセットであるExtended Cambridge Landmarks (ECL)を導入,共有し,外観条件が著しく異なる複数のシーズンで示す。実験により、HyperPoseはシングルシーンおよびマルチシーンアーキテクチャにおいて顕著なパフォーマンス向上をもたらすことが示された。ソースコード、事前トレーニングされたモデル、ECLデータセットを公開しました。

関連論文リスト

PoseDiff: A Unified Diffusion Model Bridging Robot Pose Estimation and Video-to-Action Control [67.17998939712326]
本稿では,ロボットの状態推定と制御を単一のフレームワーク内で統一する条件拡散モデルPoseDiffを提案する。中心となるPoseDiffは、生の視覚を3Dキーポイントや関節角などの構造化されたロボットの状態にマッピングする。この基盤の上に構築されたPoseDiffは、ビデオからアクションへの逆ダイナミクスに自然に拡張する。
論文参考訳（メタデータ） (2025-09-29T10:55:48Z)
FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文参考訳（メタデータ） (2025-03-29T14:26:06Z)
Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。 IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文参考訳（メタデータ） (2024-09-11T08:36:49Z)
Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation [74.65906322148997]
本稿では,画像特徴量間の複雑な高次相関を捉えるためにハイパーグラフ計算を統合する新しいオブジェクト検出手法を提案する。 Hyper-YOLOは、高度なYOLOv8-NとYOLOv9Tを12%のtextval$と9%のAPMoonLabの改善で大幅に上回っている。
論文参考訳（メタデータ） (2024-08-09T01:21:15Z)
ReGround: Improving Textual and Spatial Grounding at No Cost [12.944046673902415]
空間的接地は、ゲートされた自己意図から横断的な意図への逐次的な流れによって、しばしばテキスト的接地よりも優れている。このようなバイアスは、ネットワークアーキテクチャを単に書き換えることによって、どちらも精度を犠牲にすることなく、大幅に軽減できることを示す。
論文参考訳（メタデータ） (2024-03-20T13:37:29Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Coarse-to-Fine Multi-Scene Pose Regression with Transformers [19.927662512903915]
多層パーセプトロン(MLP)ヘッドを持つ畳み込みバックボーンは、画像とラベルを使用してトレーニングされ、一度に単一の参照を埋め込む。本稿では,トランスフォーマーを用いて,アクティベーションマップを自己注意で集約するためにエンコーダを使用するマルチシーン絶対カメラポーズ回帰を学習することを提案する。提案手法は,屋内および屋外のベンチマークデータセットで評価され,マルチシーンおよび最先端の単一シーンの絶対ポーズ回帰器を超越していることが示されている。
論文参考訳（メタデータ） (2023-08-22T20:43:31Z)
Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。上述の潜在対応をモデル化するための双レベルパラダイムを導入する。エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文参考訳（メタデータ） (2023-06-02T08:16:21Z)
Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:03:23Z)
HyperE2VID: Improving Event-Based Video Reconstruction via Hypernetworks [16.432164340779266]
イベントベースビデオ再構成のための動的ニューラルネットワークアーキテクチャであるHyperE2VIDを提案する。提案手法では,ハイパーネットワークを用いてコンテキスト融合モジュールによって誘導される画素ごとの適応フィルタを生成する。
論文参考訳（メタデータ） (2023-05-10T18:00:06Z)
Magnitude Invariant Parametrizations Improve Hypernetwork Learning [0.0]
Hypernetworksは、別のニューラルネットワークのパラメータを予測する強力なニューラルネットワークである。トレーニングは通常、非ハイパーネットワークモデルよりもはるかにゆっくりと収束する。我々は、ハイパーネットワークのトレーニングの課題に寄与する、基本的な未確認の問題を識別する。我々は、MIP(Magnitude Invariant Parametrizations)と呼ばれる改訂されたハイパーネットワークの定式化を用いて、この問題に対する簡単な解決策を提案する。
論文参考訳（メタデータ） (2023-04-15T22:18:29Z)
NEWTON: Neural View-Centric Mapping for On-the-Fly Large-Scale SLAM [51.21564182169607]
Newtonは、リアルタイム観測に基づいて動的にニューラルネットワークを構築するビュー中心のマッピング手法である。本手法は,複数のニューラルネットワークを用いてシーンを表現することで,ループクロージャとシーン境界更新を用いたカメラポーズ更新を可能にする。実験の結果,既存の世界中心型ニューラルネットワークSLAMシステムよりも優れた性能を示した。
論文参考訳（メタデータ） (2023-03-23T20:22:01Z)
DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文参考訳（メタデータ） (2023-01-05T12:06:47Z)
A Lightweight Domain Adaptive Absolute Pose Regressor Using Barlow Twins Objective [0.6193838300896449]
本稿では,絶対ポーズ回帰のためのドメイン適応型トレーニングフレームワークを提案する。提案フレームワークでは,並列ブランチの訓練に生成手法を用いて,シーンイメージを異なる領域に拡張する。その結果、約24倍のFLOP、12倍のアクティベーション、MS-Transformerの5倍のパラメータを使用しても、我々のアプローチはCNNベースのアーキテクチャよりも優れています。
論文参考訳（メタデータ） (2022-11-20T12:18:53Z)
HyperStyle: StyleGAN Inversion with HyperNetworks for Real Image Editing [2.362412515574206]
HyperStyleは、StyleGANの重みを変調して、潜在空間の編集可能な領域で所定の画像を忠実に表現することを学ぶ。 HyperStyleは、エンコーダのほぼリアルタイム推論機能を備えた最適化手法に匹敵する再構成を行う。
論文参考訳（メタデータ） (2021-11-30T18:56:30Z)
Global and Local Alignment Networks for Unpaired Image-to-Image Translation [170.08142745705575]
未ペア画像から画像への変換の目的は、対象領域のスタイルを反映した出力画像を作成することである。既存の手法では内容変化に注意が払われていないため、ソース画像からの意味情報は翻訳中の劣化に悩まされる。我々はGLA-Net(Global and Local Alignment Networks)という新しいアプローチを導入する。本手法は既存の手法よりもシャープでリアルな画像を効果的に生成する。
論文参考訳（メタデータ） (2021-11-19T18:01:54Z)
LENS: Localization enhanced by NeRF synthesis [3.4386226615580107]
アルゴリズムのNeRFクラスによって描画された追加の合成データセットにより、カメラポーズの回帰が向上することを示す。我々はさらに、トレーニング中のデータ拡張として、合成現実的および幾何学的一貫した画像を用いて、ポーズ回帰器の局所化精度を向上した。
論文参考訳（メタデータ） (2021-10-13T08:15:08Z)
Domain-invariant Similarity Activation Map Contrastive Learning for Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。 CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文参考訳（メタデータ） (2020-09-16T14:43:22Z)
6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文参考訳（メタデータ） (2020-04-09T20:55:06Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)
Molecule Property Prediction and Classification with Graph Hypernetworks [113.38181979662288]
ネットワークをハイパーネットワークに置き換えることで性能が向上することを示す。ハイパーネットワークの適用において大きな困難は、安定性の欠如である。最近の研究は、エラー訂正コードのコンテキストにおいて、ハイパーネットワークのトレーニング不安定性に取り組んでいる。
論文参考訳（メタデータ） (2020-02-01T16:44:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。