論文の概要: Revisiting Modality Imbalance In Multimodal Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2302.12589v2
- Date: Fri, 7 Jul 2023 08:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:34:10.417030
- Title: Revisiting Modality Imbalance In Multimodal Pedestrian Detection
- Title(参考訳): マルチモーダル歩行者検出におけるモダリティ不均衡の再検討
- Authors: Arindam Das, Sudip Das, Ganesh Sistu, Jonathan Horgan, Ujjwal
Bhattacharya, Edward Jones, Martin Glavin, and Ciar\'an Eising
- Abstract要約: 本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
- 参考スコア(独自算出の注目度): 6.7841188753203046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning, particularly for pedestrian detection, has recently
received emphasis due to its capability to function equally well in several
critical autonomous driving scenarios such as low-light, night-time, and
adverse weather conditions. However, in most cases, the training distribution
largely emphasizes the contribution of one specific input that makes the
network biased towards one modality. Hence, the generalization of such models
becomes a significant problem where the non-dominant input modality during
training could be contributing more to the course of inference. Here, we
introduce a novel training setup with regularizer in the multimodal
architecture to resolve the problem of this disparity between the modalities.
Specifically, our regularizer term helps to make the feature fusion method more
robust by considering both the feature extractors equivalently important during
the training to extract the multimodal distribution which is referred to as
removing the imbalance problem. Furthermore, our decoupling concept of output
stream helps the detection task by sharing the spatial sensitive information
mutually. Extensive experiments of the proposed method on KAIST and UTokyo
datasets shows improvement of the respective state-of-the-art performance.
- Abstract(参考訳): 特に歩行者検出のためのマルチモーダル学習は、最近、低照度、夜間、悪天候といったいくつかの重要な自動運転シナリオで等しく機能する能力によって強調されている。
しかし、ほとんどの場合、トレーニング分布は、ネットワークを一つのモダリティに偏らせるような、ある特定の入力の寄与を主に強調する。
したがって、そのようなモデルの一般化は、トレーニング中の非支配的な入力モダリティが推論過程にさらに寄与する可能性がある重要な問題となる。
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モダリティ間の相違を解消する。
具体的には,不均衡問題除去と呼ばれるマルチモーダル分布を抽出する訓練において,特徴抽出器の双方が同等に重要であることを考慮し,特徴融合法をより堅牢にすることを支援する。
さらに,出力ストリームの分離概念は,空間的センシティブな情報を相互に共有することで検出作業を支援する。
KAISTおよびUTOkyoデータセットにおける提案手法の広汎な実験により,それぞれの最先端性能の改善が示された。
関連論文リスト
- Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。
既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。
本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文 参考訳(メタデータ) (2024-07-05T12:09:33Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Rethinking the constraints of multimodal fusion: case study in
Weakly-Supervised Audio-Visual Video Parsing [5.395800183719964]
最適な特徴抽出ネットワークのコロケーションを選択することは、マルチモーダルタスクにおいて非常に重要なサブプロブレムであることを示す。
数学における極値変換の一般的な実践を参照して、最適化問題を比較上界の問題に変換する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-30T05:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。