論文の概要: Fully Differentiable and Interpretable Model for VIO with 4 Trainable
Parameters
- arxiv url: http://arxiv.org/abs/2109.12292v1
- Date: Sat, 25 Sep 2021 06:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 13:26:27.146722
- Title: Fully Differentiable and Interpretable Model for VIO with 4 Trainable
Parameters
- Title(参考訳): 4つのトレーニング可能なパラメータを持つVIOの完全微分可能・解釈可能モデル
- Authors: Zexi Chen, Haozhe Du, Yiyi Liao, Yue Wang, Rong Xiong
- Abstract要約: 単眼の視覚-慣性オドメトリーは、ロボット工学と自律運転において重要な問題である。
本稿では,4つのトレーニング可能なパラメータのみを含む完全微分可能,解釈可能,軽量な単分子VIOモデルを提案する。
合成および実世界のデータセットに関する実験結果は、我々の単純なアプローチが最先端の手法と競合することを示している。
- 参考スコア(独自算出の注目度): 16.347927939872488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular visual-inertial odometry (VIO) is a critical problem in robotics
and autonomous driving. Traditional methods solve this problem based on
filtering or optimization. While being fully interpretable, they rely on manual
interference and empirical parameter tuning. On the other hand, learning-based
approaches allow for end-to-end training but require a large number of training
data to learn millions of parameters. However, the non-interpretable and heavy
models hinder the generalization ability. In this paper, we propose a fully
differentiable, interpretable, and lightweight monocular VIO model that
contains only 4 trainable parameters. Specifically, we first adopt Unscented
Kalman Filter as a differentiable layer to predict the pitch and roll, where
the covariance matrices of noise are learned to filter out the noise of the IMU
raw data. Second, the refined pitch and roll are adopted to retrieve a
gravity-aligned BEV image of each frame using differentiable camera projection.
Finally, a differentiable pose estimator is utilized to estimate the remaining
4 DoF poses between the BEV frames. Our method allows for learning the
covariance matrices end-to-end supervised by the pose estimation loss,
demonstrating superior performance to empirical baselines. Experimental results
on synthetic and real-world datasets demonstrate that our simple approach is
competitive with state-of-the-art methods and generalizes well on unseen
scenes.
- Abstract(参考訳): vio (monocular visual-inertial odometry) は、ロボット工学と自動運転における重要な問題である。
従来の手法はフィルタリングや最適化に基づいてこの問題を解決する。
完全に解釈可能である一方で、手動の干渉と経験的パラメータチューニングに依存している。
一方、学習ベースのアプローチはエンドツーエンドのトレーニングを可能にするが、数百万のパラメータを学習するには大量のトレーニングデータを必要とする。
しかし、解釈不能で重いモデルは一般化能力を妨げる。
本稿では,4つのトレーニング可能なパラメータのみを含む完全微分可能,解釈可能,軽量な単分子VIOモデルを提案する。
具体的には, 音の共分散行列を学習し, imu生データのノイズをフィルタする, ピッチとロールを予測するための微分可能な層として, 香気のないカルマンフィルタを最初に採用した。
次に、改良されたピッチとロールを採用して、異なるカメラプロジェクションを用いて各フレームの重力方向のBEV画像を取得する。
最後に、微分可能なポーズ推定器を用いて、bevフレーム間の残りの4つのdofポーズを推定する。
提案手法は,ポーズ推定損失によって制御される共分散行列を学習し,経験的ベースラインよりも優れた性能を示す。
合成および実世界のデータセットの実験結果は、我々の単純なアプローチが最先端の手法と競合し、目に見えない場面でうまく一般化していることを示している。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation [30.710296843150832]
画像間の相対的なカメラのポーズを推定することは、コンピュータビジョンにおいて中心的な問題となっている。
私たちのアプローチは、正確かつ堅牢な結果をもたらします。
包括的解析は設計選択をサポートし,提案手法が様々な特徴抽出器や対応推定器に柔軟に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:59:51Z) - NPEFF: Non-Negative Per-Example Fisher Factorization [52.44573961263344]
エンド・ツー・エンドの微分可能モデルに容易に適用可能な,NPEFFと呼ばれる新しい解釈可能性手法を提案する。
我々はNPEFFが言語モデルと視覚モデルの実験を通して解釈可能なチューニングを持つことを実証した。
論文 参考訳(メタデータ) (2023-10-07T02:02:45Z) - Particle-Based Score Estimation for State Space Model Learning in
Autonomous Driving [62.053071723903834]
マルチオブジェクト状態推定はロボットアプリケーションの基本的な問題である。
粒子法を用いて最大形パラメータを学習することを検討する。
自動運転車から収集した実データに本手法を適用した。
論文 参考訳(メタデータ) (2022-12-14T01:21:05Z) - Multi-View Object Pose Refinement With Differentiable Renderer [22.040014384283378]
本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。
これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。
合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を報告した。
論文 参考訳(メタデータ) (2022-07-06T17:02:22Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Learn from Unpaired Data for Image Restoration: A Variational Bayes
Approach [18.007258270845107]
境界分布から抽出したデータから結合確率密度関数を学習するための深層生成法 LUD-VAE を提案する。
本稿では,LUD-VAEによって生成された合成データを用いて,実世界の画像認識と超分解能タスクに適用し,モデルを訓練する。
論文 参考訳(メタデータ) (2022-04-21T13:27:17Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - Doubly Robust Semiparametric Difference-in-Differences Estimators with
High-Dimensional Data [15.27393561231633]
不均一な治療効果を推定するための2段半パラメトリック差分差分推定器を提案する。
第1段階では、確率スコアを推定するために、一般的な機械学習手法が使用できる。
第2段階ではパラメトリックパラメータと未知関数の両方の収束率を導出する。
論文 参考訳(メタデータ) (2020-09-07T15:14:29Z) - Variational Inference with Parameter Learning Applied to Vehicle
Trajectory Estimation [20.41604350878599]
雑音測定のみを用いたガウス変分推論におけるパラメータ学習について述べる。
我々はライダーを用いた自動車による36kmのデータセットを用いて高精細マップに対するローカライズを行う手法を実証した。
論文 参考訳(メタデータ) (2020-03-21T19:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。