論文の概要: Learning Structure-from-Motion with Graph Attention Networks
- arxiv url: http://arxiv.org/abs/2308.15984v2
- Date: Mon, 4 Dec 2023 08:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:33:30.557504
- Title: Learning Structure-from-Motion with Graph Attention Networks
- Title(参考訳): グラフ注意ネットワークによる動きからの学習
- Authors: Lucas Brynte and Jos\'e Pedro Iglesias and Carl Olsson and Fredrik
Kahl
- Abstract要約: 本稿では,グラフアテンションネットワークを用いてSfM(Structure-from-Motion)を学習する問題に取り組む。
本研究では,複数のビューにまたがって検出された2Dキーポイントを入力とし,対応するカメラポーズと3Dキーポイント座標を出力するモデルを学習する。
本モデルでは,SfM固有のプリミティブを学習するために,グラフニューラルネットワークを利用する。
- 参考スコア(独自算出の注目度): 19.664629318826204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we tackle the problem of learning Structure-from-Motion (SfM)
through the use of graph attention networks. SfM is a classic computer vision
problem that is solved though iterative minimization of reprojection errors,
referred to as Bundle Adjustment (BA), starting from a good initialization. In
order to obtain a good enough initialization to BA, conventional methods rely
on a sequence of sub-problems (such as pairwise pose estimation, pose averaging
or triangulation) which provides an initial solution that can then be refined
using BA. In this work we replace these sub-problems by learning a model that
takes as input the 2D keypoints detected across multiple views, and outputs the
corresponding camera poses and 3D keypoint coordinates. Our model takes
advantage of graph neural networks to learn SfM-specific primitives, and we
show that it can be used for fast inference of the reconstruction for new and
unseen sequences. The experimental results show that the proposed model
outperforms competing learning-based methods, and challenges COLMAP while
having lower runtime.
- Abstract(参考訳): 本稿では,グラフアテンションネットワークを用いてSfM(Structure-from-Motion)を学習する問題に取り組む。
sfmは古典的なコンピュータビジョンの問題であり、良い初期化から始まったバンドル調整(ba)と呼ばれる再プロジェクションエラーの反復的最小化によって解決される。
BAに対する十分な初期化を得るためには、従来の手法は、BAを用いて洗練できる初期解を提供する一連のサブプロブレム(ペアのポーズ推定、ポーズ平均化、三角形化など)に依存している。
本研究では,複数のビューで検出された2次元キーポイントを入力として学習し,対応するカメラポーズと3次元キーポイント座標を出力する。
本モデルでは、グラフニューラルネットワークを利用してsfm特有のプリミティブを学習し、新たな未知のシーケンスの復元を高速に行うことができることを示す。
実験の結果,提案モデルが競合する学習ベース手法よりも優れており,実行時間の低いcolmapに挑戦することが示された。
関連論文リスト
- DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly [21.497180110855975]
グラフニューラルネットワーク(GNN)ベースのアーキテクチャであるDiffAssembleを導入する。
本手法は,空間グラフのノードとして,2次元パッチや3次元オブジェクトフラグメントなどの集合の要素を扱う。
我々は、最も高速な最適化に基づくパズル解法よりも11倍高速に実行された、実行時間の大幅な削減を強調した。
論文 参考訳(メタデータ) (2024-02-29T16:09:12Z) - Fine Structure-Aware Sampling: A New Sampling Training Scheme for
Pixel-Aligned Implicit Models in Single-View Human Reconstruction [105.46091601932524]
本研究では,単一視点の人物再構成のための暗黙的画素アライメントモデルをトレーニングするために,FSS(Final Structured-Aware Sampling)を導入する。
FSSは表面の厚さと複雑さに積極的に適応する。
また、画素アライメント型暗黙的モデルのためのメッシュ厚み損失信号を提案する。
論文 参考訳(メタデータ) (2024-02-29T14:26:46Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Learnable human mesh triangulation for 3D human pose and shape
estimation [6.699132260402631]
関節回転と形状推定の精度は, マルチビュー画像からスキン付き多対人線形モデル(SMPL)に基づくヒューマンメッシュ再構成において, 比較的注目されていない。
本稿では,関節回転・形状再構成の曖昧さとネットワーク学習の困難さを解消する2段階の手法を提案する。
提案手法は, 接合部の回転および形状推定において従来よりも有意に優れており, 接合位置推定では競争性能が向上する。
論文 参考訳(メタデータ) (2022-08-24T01:11:57Z) - FvOR: Robust Joint Shape and Pose Optimization for Few-view Object
Reconstruction [37.81077373162092]
数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。
FvORは、ノイズの多い入力ポーズを持つ数枚の画像から正確な3Dモデルを予測する学習ベースのオブジェクト再構成手法である。
論文 参考訳(メタデータ) (2022-05-16T15:39:27Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Learning Eye-in-Hand Camera Calibration from a Single Image [7.262048441360133]
アイ・イン・ハンドカメラのキャリブレーションはロボティクスの基本的かつ長期にわたる問題である。
本稿では,1枚のRGB画像から,この問題をオンラインに解決するための学習的手法について検討する。
論文 参考訳(メタデータ) (2021-11-01T20:17:31Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Deep Unfolding Network for Image Super-Resolution [159.50726840791697]
本稿では,学習に基づく手法とモデルに基づく手法の両方を活用する,エンドツーエンドのトレーニング可能なアンフォールディングネットワークを提案する。
提案するネットワークは, モデルベース手法の柔軟性を継承し, 一つのモデルを用いて, 異なるスケール要因に対する, 曖昧でノイズの多い画像の超解像化を行う。
論文 参考訳(メタデータ) (2020-03-23T17:55:42Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。