論文の概要: Learning Structure-from-Motion with Graph Attention Networks
- arxiv url: http://arxiv.org/abs/2308.15984v3
- Date: Sat, 18 May 2024 22:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 00:40:21.317180
- Title: Learning Structure-from-Motion with Graph Attention Networks
- Title(参考訳): グラフ注意ネットワークによる動きからの学習
- Authors: Lucas Brynte, José Pedro Iglesias, Carl Olsson, Fredrik Kahl,
- Abstract要約: 本稿では,グラフアテンションネットワークを用いてSfM(Structure-from-Motion)を学習する問題に取り組む。
本研究では,複数のビューにまたがって検出された2Dキーポイントを入力とし,対応するカメラポーズと3Dキーポイント座標を出力するモデルを学習する。
本モデルでは,SfM固有のプリミティブを学習するために,グラフニューラルネットワークを利用する。
- 参考スコア(独自算出の注目度): 23.87562683118926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we tackle the problem of learning Structure-from-Motion (SfM) through the use of graph attention networks. SfM is a classic computer vision problem that is solved though iterative minimization of reprojection errors, referred to as Bundle Adjustment (BA), starting from a good initialization. In order to obtain a good enough initialization to BA, conventional methods rely on a sequence of sub-problems (such as pairwise pose estimation, pose averaging or triangulation) which provide an initial solution that can then be refined using BA. In this work we replace these sub-problems by learning a model that takes as input the 2D keypoints detected across multiple views, and outputs the corresponding camera poses and 3D keypoint coordinates. Our model takes advantage of graph neural networks to learn SfM-specific primitives, and we show that it can be used for fast inference of the reconstruction for new and unseen sequences. The experimental results show that the proposed model outperforms competing learning-based methods, and challenges COLMAP while having lower runtime. Our code is available at https://github.com/lucasbrynte/gasfm/.
- Abstract(参考訳): 本稿では,グラフアテンションネットワークを用いてSfM(Structure-from-Motion)を学習する問題に取り組む。
SfMは昔ながらのコンピュータビジョン問題であり、再射誤差の反復最小化(BA)は良い初期化から始まっている。
BAに対する十分な初期化を得るためには、従来の手法は、BAを用いて洗練できる初期解を提供する一連のサブプロブレム(ペアのポーズ推定、ポーズ平均化、三角形化など)に依存している。
本研究では,複数のビューにまたがって検出された2Dキーポイントを入力として扱うモデルを学習し,対応するカメラポーズと3Dキーポイント座標を出力することによって,これらのサブプロブレムを置き換える。
本モデルでは,SfM固有のプリミティブを学習するために,グラフニューラルネットワークを利用する。
実験の結果,提案手法は競合する学習手法よりも優れており,ランタイムが低い場合にはCOLMAPに挑戦することが示された。
私たちのコードはhttps://github.com/lucasbrynte/gasfm/で利用可能です。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly [21.497180110855975]
グラフニューラルネットワーク(GNN)ベースのアーキテクチャであるDiffAssembleを導入する。
本手法は,空間グラフのノードとして,2次元パッチや3次元オブジェクトフラグメントなどの集合の要素を扱う。
我々は、最も高速な最適化に基づくパズル解法よりも11倍高速に実行された、実行時間の大幅な削減を強調した。
論文 参考訳(メタデータ) (2024-02-29T16:09:12Z) - Fine Structure-Aware Sampling: A New Sampling Training Scheme for Pixel-Aligned Implicit Models in Single-View Human Reconstruction [98.30014795224432]
本研究では,単一視点の人物再構成のための暗黙的画素アライメントモデルをトレーニングするために,FSS(Final Structured-Aware Sampling)を導入する。
FSSは表面の厚さと複雑さに積極的に適応する。
また、画素アライメント型暗黙的モデルのためのメッシュ厚み損失信号を提案する。
論文 参考訳(メタデータ) (2024-02-29T14:26:46Z) - Determination of the critical points for systems of directed percolation
class using machine learning [0.0]
我々はCNNとDBSCANを用いて、有向結合パーコレーション(ボンドDP)モデルとドマニ・キンゼル細胞普遍性(DK)モデルの臨界点を決定する。
両アルゴリズムの結果から,格子サイズの非常に小さな値であっても,マシンは両モデルの臨界点を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2023-07-19T20:58:12Z) - Generalizing Neural Human Fitting to Unseen Poses With Articulated SE(3)
Equivariance [48.39751410262664]
ArtEqは、点雲からのSMPLモデル推定のための部分ベースSE(3)等価ニューラルネットワークである。
実験の結果,ArtEqはトレーニング中に見えない動作を一般化し,身体再建精度の点で最先端の手法を44%上回った。
論文 参考訳(メタデータ) (2023-04-20T17:58:26Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - FvOR: Robust Joint Shape and Pose Optimization for Few-view Object
Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。
FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文 参考訳(メタデータ) (2022-05-16T15:39:27Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Towards a method to anticipate dark matter signals with deep learning at
the LHC [58.720142291102135]
ニューラルネットワークを用いた簡易暗黒物質モデルとそのシグネチャをLHCで検討した。
通常のモノジェットと逆エネルギーチャネルの欠如に焦点を当てるが、アルゴリズムを訓練するためには、イベント・バイ・イベント・アレーの代わりに2Dヒストグラムでデータを整理する。
これにより、標準モデル(SM)のみとSMと新しい物理信号とを区別する性能が大きく向上する。
論文 参考訳(メタデータ) (2021-05-25T15:38:13Z) - A generalized quadratic loss for SVM and Deep Neural Networks [0.0]
我々は、いくつかの監督されたバイナリ分類タスクと回帰タスクを検討するが、SVMとDeep Learningは現在、最高の一般化パフォーマンスを示す。
パターン相関を検討する学習問題に対する一般化二次損失に関する研究[3]を拡張し、パターンがより高密度に分布する入力空間領域に学習問題を集中させる。
論文 参考訳(メタデータ) (2021-02-15T15:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。