論文の概要: Informative Data Selection with Uncertainty for Multi-modal Object
Detection
- arxiv url: http://arxiv.org/abs/2304.11697v1
- Date: Sun, 23 Apr 2023 16:36:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 16:53:51.486535
- Title: Informative Data Selection with Uncertainty for Multi-modal Object
Detection
- Title(参考訳): マルチモーダル物体検出のための不確実性のある情報選択
- Authors: Xinyu Zhang, Zhiwei Li, Zhenhong Zou, Xin Gao, Yijin Xiong, Dafeng
Jin, Jun Li, and Huaping Liu
- Abstract要約: 普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。
我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
- 参考スコア(独自算出の注目度): 25.602915381482468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Noise has always been nonnegligible trouble in object detection by creating
confusion in model reasoning, thereby reducing the informativeness of the data.
It can lead to inaccurate recognition due to the shift in the observed pattern,
that requires a robust generalization of the models. To implement a general
vision model, we need to develop deep learning models that can adaptively
select valid information from multi-modal data. This is mainly based on two
reasons. Multi-modal learning can break through the inherent defects of
single-modal data, and adaptive information selection can reduce chaos in
multi-modal data. To tackle this problem, we propose a universal
uncertainty-aware multi-modal fusion model. It adopts a multi-pipeline loosely
coupled architecture to combine the features and results from point clouds and
images. To quantify the correlation in multi-modal information, we model the
uncertainty, as the inverse of data information, in different modalities and
embed it in the bounding box generation. In this way, our model reduces the
randomness in fusion and generates reliable output. Moreover, we conducted a
completed investigation on the KITTI 2D object detection dataset and its
derived dirty data. Our fusion model is proven to resist severe noise
interference like Gaussian, motion blur, and frost, with only slight
degradation. The experiment results demonstrate the benefits of our adaptive
fusion. Our analysis on the robustness of multi-modal fusion will provide
further insights for future research.
- Abstract(参考訳): モデル推論における混乱を生じさせることで、オブジェクト検出においてノイズは常に無視できない問題であり、それによってデータの情報性が低下する。
観測パターンの変化により、モデルの堅牢な一般化を必要とする不正確な認識につながる可能性がある。
汎用視覚モデルを実現するためには,マルチモーダルデータから有効な情報を適応的に選択できるディープラーニングモデルを開発する必要がある。
これは主に2つの理由に基づいている。
マルチモーダル学習は単一モーダルデータの固有の欠陥を突破することができ、適応的な情報選択はマルチモーダルデータのカオスを低減することができる。
この問題に対処するため,我々は普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
マルチパイプラインの疎結合アーキテクチャを採用して,ポイントクラウドとイメージの機能と結果を組み合わせたものだ。
マルチモーダル情報における相関関係を定量化するために、データ情報の逆転として不確実性を異なるモーダルでモデル化し、バウンディングボックス生成に組み込む。
このようにして,本モデルは融合のランダム性を低減し,信頼性の高い出力を生成する。
さらに,kitti 2d object detection datasetとその導出するdirty dataの完全な調査を行った。
我々の核融合モデルは、ガウス、動きのぼやけ、フロストのような激しいノイズ干渉に耐え、わずかに劣化するだけであることが証明されている。
実験結果は,我々の適応核融合の利点を示す。
マルチモーダル核融合の堅牢性に関する我々の分析は、今後の研究にさらなる洞察をもたらすだろう。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Defending Multimodal Fusion Models against Single-Source Adversaries [6.019777076722421]
標準マルチモーダル融合モデルは単一ソースの敵に対して脆弱であることを示す。
単一のモダリティに対する攻撃は、複数の乱れのないモダリティからの正しい情報を克服し、モデルを失敗させる。
この発見に触発され、逆向きに堅牢な核融合戦略を提案する。
論文 参考訳(メタデータ) (2022-06-25T18:57:02Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Learning Disentangled Latent Factors from Paired Data in Cross-Modal
Retrieval: An Implicit Identifiable VAE Approach [33.61751393224223]
両モーダルデータ間で相互に共有される不整合潜在因子を相互に検索する際の問題に対処する。
本稿では,潜在変数モデルから周辺データデコードモジュールを完全に除去する暗黙デコーダの新たなアイデアを提案する。
本モデルでは,従来のエンコーダ・デコーダの潜在変数モデルよりも精度が高く,精度も優れていた。
論文 参考訳(メタデータ) (2020-12-01T17:47:50Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。