論文の概要: Modality-invariant Visual Odometry for Embodied Vision
- arxiv url: http://arxiv.org/abs/2305.00348v1
- Date: Sat, 29 Apr 2023 21:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 15:42:40.373151
- Title: Modality-invariant Visual Odometry for Embodied Vision
- Title(参考訳): 身体視におけるモダリティ不変の視覚計測
- Authors: Marius Memmel, Roman Bachmann, Amir Zamir
- Abstract要約: ビジュアルオドメトリー(VO)は、信頼性の低いGPSとコンパスセンサーの代替品である。
最近のディープVOモデルは、数百万のサンプルをトレーニングしながら、RGBや深さなどの入力モダリティの固定セットに制限されている。
本稿では,トランスフォーマーをベースとしたモダリティ不変VOアプローチを提案する。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively localizing an agent in a realistic, noisy setting is crucial for
many embodied vision tasks. Visual Odometry (VO) is a practical substitute for
unreliable GPS and compass sensors, especially in indoor environments. While
SLAM-based methods show a solid performance without large data requirements,
they are less flexible and robust w.r.t. to noise and changes in the sensor
suite compared to learning-based approaches. Recent deep VO models, however,
limit themselves to a fixed set of input modalities, e.g., RGB and depth, while
training on millions of samples. When sensors fail, sensor suites change, or
modalities are intentionally looped out due to available resources, e.g., power
consumption, the models fail catastrophically. Furthermore, training these
models from scratch is even more expensive without simulator access or suitable
existing models that can be fine-tuned. While such scenarios get mostly ignored
in simulation, they commonly hinder a model's reusability in real-world
applications. We propose a Transformer-based modality-invariant VO approach
that can deal with diverse or changing sensor suites of navigation agents. Our
model outperforms previous methods while training on only a fraction of the
data. We hope this method opens the door to a broader range of real-world
applications that can benefit from flexible and learned VO models.
- Abstract(参考訳): エージェントを現実的でノイズの多い環境で効果的にローカライズすることは、多くの具体的視覚タスクに不可欠である。
ビジュアルオドメトリー(VO)は、特に屋内環境では、信頼性の低いGPSやコンパスセンサーの代替となる。
SLAMベースの手法は、大きなデータ要求なしに安定した性能を示すが、学習ベースのアプローチに比べて、ノイズやセンサースイートの変更に対して柔軟性が低く、堅牢である。
しかし、最近のディープVOモデルは、数百万のサンプルをトレーニングしながら、RGBや深さなどの入力モードの固定セットに制限されている。
センサーが故障した場合、センサースイートが変更され、あるいは電力消費などの利用可能なリソースのために、モダリティが意図的にループアウトされる。
さらに、これらのモデルをスクラッチからトレーニングすることは、シミュレーターアクセスや、微調整可能な既存のモデルなしでさらにコストがかかる。
このようなシナリオはシミュレーションでほとんど無視されるが、実世界のアプリケーションでモデルの再利用性を妨げる。
本稿では,様々なナビゲーションエージェントのセンサスイートに対応可能なトランスフォーマティブ型モダリティ不変voアプローチを提案する。
我々のモデルは、データの一部をトレーニングしながら、以前の方法よりも優れています。
この手法が、フレキシブルで学習されたVOモデルの恩恵を受けることができる幅広い現実世界アプリケーションへの扉を開くことを願っている。
関連論文リスト
- 3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。
本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。
このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文 参考訳(メタデータ) (2024-11-13T08:34:07Z) - MPVO: Motion-Prior based Visual Odometry for PointGoal Navigation [3.9974562667271507]
視覚計測(VO)は,室内環境におけるエンボディエージェントの正確なポイントゴールナビゲーションを可能にするために不可欠である。
近年の深層学習VO法は, 頑健な性能を示すが, トレーニング中のサンプル不効率に悩まされている。
エージェントが環境をナビゲートしている間に利用可能な動作先に基づいて、ロバストでサンプル効率の良いVOパイプラインを提案する。
論文 参考訳(メタデータ) (2024-11-07T15:36:49Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Self-Supervised Geometry-Guided Initialization for Robust Monocular Visual Odometry [9.79428015716139]
本稿では,屋外ベンチマークにおける主要な障害事例を分析し,学習ベースSLAMモデル(DROID-SLAM)の欠点を明らかにする。
本研究では, 凍結した大規模単分子深度推定を利用して, 密集束調整過程を初期化する自己教師付き事前計算手法を提案する。
その単純さにもかかわらず,提案手法は, DDADベンチマークと同様に, KITTIオドメトリーの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-06-03T01:59:29Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - EMA-VIO: Deep Visual-Inertial Odometry with External Memory Attention [5.144653418944836]
視覚慣性オドメトリー(VIO)アルゴリズムは、カメラと慣性センサーからの情報を利用して位置と翻訳を推定する。
最近のディープラーニングベースのVIOモデルは、データ駆動方式でポーズ情報を提供するため、注目を集めている。
状態推定のための視覚的特徴と慣性的特徴を効果的かつ効率的に組み合わせた,外部記憶に配慮した新しい学習ベースのVIOフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-18T07:05:36Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Can Deep Learning be Applied to Model-Based Multi-Object Tracking? [25.464269324261636]
マルチオブジェクトトラッキング(MOT)は、ノイズ測定を用いて未知の、時間変化のあるオブジェクトの状態をトラッキングする問題である。
ディープラーニング(DL)は、トラッキングパフォーマンスを改善するために、MOTでますます使われている。
本稿では,TransformerベースのDLトラッカーを提案し,その性能をモデルベースで評価する。
論文 参考訳(メタデータ) (2022-02-16T07:43:08Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。