論文の概要: Input Dropout for Spatially Aligned Modalities
- arxiv url: http://arxiv.org/abs/2002.02852v2
- Date: Thu, 21 May 2020 11:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:35:22.174994
- Title: Input Dropout for Spatially Aligned Modalities
- Title(参考訳): 空間配向モードに対する入力ドロップアウト
- Authors: S\'ebastien de Blois, Mathieu Garon, Christian Gagn\'e,
Jean-Fran\c{c}ois Lalonde
- Abstract要約: 入力ドロップアウト(Input Dropout)は、1つまたは複数の入力モダリティをトレーニング時に隠蔽し、テスト時に標準(例えばRGB)モダリティのみを使用する技術である。
入力ドロップアウトは、既存の深層畳み込みアーキテクチャと簡単に結合し、幅広いコンピュータビジョンタスクにおける性能を向上させることを実証する。
- 参考スコア(独自算出の注目度): 5.811502603310248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision datasets containing multiple modalities such as color, depth,
and thermal properties are now commonly accessible and useful for solving a
wide array of challenging tasks. However, deploying multi-sensor heads is not
possible in many scenarios. As such many practical solutions tend to be based
on simpler sensors, mostly for cost, simplicity and robustness considerations.
In this work, we propose a training methodology to take advantage of these
additional modalities available in datasets, even if they are not available at
test time. By assuming that the modalities have a strong spatial correlation,
we propose Input Dropout, a simple technique that consists in stochastic hiding
of one or many input modalities at training time, while using only the
canonical (e.g. RGB) modalities at test time. We demonstrate that Input Dropout
trivially combines with existing deep convolutional architectures, and improves
their performance on a wide range of computer vision tasks such as dehazing,
6-DOF object tracking, pedestrian detection and object classification.
- Abstract(参考訳): 色、深さ、熱的性質といった複数のモダリティを含むコンピュータビジョンデータセットが一般にアクセス可能になり、幅広い課題を解決するのに役立ちます。
しかし、多くのシナリオではマルチセンサーヘッドのデプロイは不可能である。
多くの実用的なソリューションは、コスト、単純さ、堅牢性を考慮して、より単純なセンサーに基づいている傾向にある。
本研究では,テスト時に使用できない場合でも,データセットで利用可能な追加のモダリティを活用するためのトレーニング手法を提案する。
モーダルが強い空間相関を持つと仮定することで、テスト時に標準(例えばRGB)モーダルのみを使用しながら、トレーニング時に1つまたは複数の入力モーダルを確率的に隠蔽する単純な手法である入力ドロップアウトを提案する。
入力ドロップアウトは、既存の深層畳み込みアーキテクチャと簡単に結合し、デハジング、6-DOFオブジェクトトラッキング、歩行者検出、オブジェクト分類などの幅広いコンピュータビジョンタスクにおける性能を向上させることを実証する。
関連論文リスト
- Plain-Det: A Plain Multi-Dataset Object Detector [22.848784430833835]
Plain-Detは、新しいデータセットに対応する柔軟性、さまざまなデータセットのパフォーマンス、トレーニング効率を提供する。
13の下流データセットに対して広範な実験を行い、Plain-Detは強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-07-14T05:18:06Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Modality-invariant Visual Odometry for Embodied Vision [1.7188280334580197]
ビジュアルオドメトリー(VO)は、信頼性の低いGPSとコンパスセンサーの代替品である。
最近のディープVOモデルは、数百万のサンプルをトレーニングしながら、RGBや深さなどの入力モダリティの固定セットに制限されている。
本稿では,トランスフォーマーをベースとしたモダリティ不変VOアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-29T21:47:12Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Feature Selection with Distance Correlation [0.0]
距離相関に基づく特徴選択法(DisCo)を提案する。
7000以上のエネルギーフローの集合から特徴を抽出するために本手法を用いることで,より深いアーキテクチャの性能に適合できることを示す。
論文 参考訳(メタデータ) (2022-11-30T19:00:04Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Multimodal Prototypical Networks for Few-shot Learning [20.100480009813953]
クロスモーダルな機能生成フレームワークは、数ショットのシナリオにおいて、人口密度の低い埋め込みスペースを強化するために使用される。
このような場合、近隣の分類は実現可能なアプローチであり、最先端のシングルモーダルおよびマルチモーダルの複数ショット学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-17T19:32:59Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。