Fugu-MT 論文翻訳(概要): Revisiting Modality Imbalance In Multimodal Pedestrian Detection

論文の概要: Revisiting Modality Imbalance In Multimodal Pedestrian Detection

arxiv url: http://arxiv.org/abs/2302.12589v2
Date: Fri, 7 Jul 2023 08:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-10 15:34:10.417030
Title: Revisiting Modality Imbalance In Multimodal Pedestrian Detection
Title（参考訳）: マルチモーダル歩行者検出におけるモダリティ不均衡の再検討
Authors: Arindam Das, Sudip Das, Ganesh Sistu, Jonathan Horgan, Ujjwal Bhattacharya, Edward Jones, Martin Glavin, and Ciar\'an Eising
Abstract要約: 本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
参考スコア（独自算出の注目度）: 6.7841188753203046
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal learning, particularly for pedestrian detection, has recently received emphasis due to its capability to function equally well in several critical autonomous driving scenarios such as low-light, night-time, and adverse weather conditions. However, in most cases, the training distribution largely emphasizes the contribution of one specific input that makes the network biased towards one modality. Hence, the generalization of such models becomes a significant problem where the non-dominant input modality during training could be contributing more to the course of inference. Here, we introduce a novel training setup with regularizer in the multimodal architecture to resolve the problem of this disparity between the modalities. Specifically, our regularizer term helps to make the feature fusion method more robust by considering both the feature extractors equivalently important during the training to extract the multimodal distribution which is referred to as removing the imbalance problem. Furthermore, our decoupling concept of output stream helps the detection task by sharing the spatial sensitive information mutually. Extensive experiments of the proposed method on KAIST and UTokyo datasets shows improvement of the respective state-of-the-art performance.
Abstract（参考訳）: 特に歩行者検出のためのマルチモーダル学習は、最近、低照度、夜間、悪天候といったいくつかの重要な自動運転シナリオで等しく機能する能力によって強調されている。しかし、ほとんどの場合、トレーニング分布は、ネットワークを一つのモダリティに偏らせるような、ある特定の入力の寄与を主に強調する。したがって、そのようなモデルの一般化は、トレーニング中の非支配的な入力モダリティが推論過程にさらに寄与する可能性がある重要な問題となる。本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モダリティ間の相違を解消する。具体的には,不均衡問題除去と呼ばれるマルチモーダル分布を抽出する訓練において,特徴抽出器の双方が同等に重要であることを考慮し,特徴融合法をより堅牢にすることを支援する。さらに,出力ストリームの分離概念は,空間的センシティブな情報を相互に共有することで検出作業を支援する。 KAISTおよびUTOkyoデータセットにおける提案手法の広汎な実験により,それぞれの最先端性能の改善が示された。

関連論文リスト

Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-17T14:44:25Z)
Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文参考訳（メタデータ） (2024-07-05T12:09:33Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。 DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文参考訳（メタデータ） (2023-11-23T15:47:33Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-09-15T07:12:27Z)
Adaptive Contrastive Learning on Multimodal Transformer for Review Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。さらに,コントラスト学習における適応重み付け方式を提案する。最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文参考訳（メタデータ） (2022-11-07T13:05:56Z)
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文参考訳（メタデータ） (2022-09-14T22:04:10Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Decentralized Local Stochastic Extra-Gradient for Variational Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文参考訳（メタデータ） (2021-06-15T17:45:51Z)
Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing [5.395800183719964]
最適な特徴抽出ネットワークのコロケーションを選択することは、マルチモーダルタスクにおいて非常に重要なサブプロブレムであることを示す。数学における極値変換の一般的な実践を参照して、最適化問題を比較上界の問題に変換する新しい手法を提案する。
論文参考訳（メタデータ） (2021-05-30T05:13:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。