論文の概要: Robust Multimodal Learning via Entropy-Gated Contrastive Fusion
- arxiv url: http://arxiv.org/abs/2505.15417v1
- Date: Wed, 21 May 2025 12:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.610136
- Title: Robust Multimodal Learning via Entropy-Gated Contrastive Fusion
- Title(参考訳): エントロピーゲート型コントラスト融合によるロバストマルチモーダル学習
- Authors: Leon Chlon, Maggie Chlon, MarcAntonio M. Awada,
- Abstract要約: 適応エントロピーGated Contrastive Fusion (AECF) は1インスタンスあたりのエントロピー係数に適応する単一軽量層である。
AV-MNIST と MS-COCO では、AECF はマスク入力 mAP を+18 pp で50% の低下率で改善し、ECE は 200% まで減少するが、実行時間は1% 増加した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world multimodal systems routinely face missing-input scenarios, and in reality, robots lose audio in a factory or a clinical record omits lab tests at inference time. Standard fusion layers either preserve robustness or calibration but never both. We introduce Adaptive Entropy-Gated Contrastive Fusion (AECF), a single light-weight layer that (i) adapts its entropy coefficient per instance, (ii) enforces monotone calibration across all modality subsets, and (iii) drives a curriculum mask directly from training-time entropy. On AV-MNIST and MS-COCO, AECF improves masked-input mAP by +18 pp at a 50% drop rate while reducing ECE by up to 200%, yet adds 1% run-time. All back-bones remain frozen, making AECF an easy drop-in layer for robust, calibrated multimodal inference.
- Abstract(参考訳): 現実のマルチモーダルシステムは、通常、欠落した入力シナリオに直面し、現実には、ロボットは工場や臨床記録で音声を失うため、推論時に実験室のテストは省略される。
標準核融合層はロバスト性またはキャリブレーションを維持するが、どちらも保持しない。
単一軽量層であるAdaptive Entropy-Gated Contrastive Fusion (AECF)を導入する。
i) インスタンスあたりのエントロピー係数を適応させる
(二)すべてのモダリティ部分集合に単調校正を施し、
(三)カリキュラムマスクを訓練時のエントロピーから直接駆動する。
AV-MNIST と MS-COCO では、AECF はマスク入力 mAP を+18 pp で50% の低下率で改善し、ECE は 200% まで減少するが、実行時間は1% 増加した。
すべてのバックボーンは凍結状態のままであり、AECFは堅牢で校正されたマルチモーダル推論のためのドロップイン層となる。
関連論文リスト
- Enhancing and Accelerating Diffusion-Based Inverse Problem Solving through Measurements Optimization [66.17291150498276]
textbfMeasurements textbfOptimization (MO)は,逆問題解決プロセスの各ステップで計測情報を統合するための,より効率的なプラグイン・アンド・プレイモジュールである。
MOを使用することで、複数のタスクにまたがる最新技術(SOTA)のパフォーマンスを確立することができ、大きな利点があります。
論文 参考訳(メタデータ) (2024-12-05T07:44:18Z) - Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining [32.925150708409205]
混合空間訓練(Mixed Sparsity Training、MST)は、性能を維持しながら、約75%の浮動小数点演算(FLOP)を削減できる効率的な事前訓練法である。
GPT-2の実験では、FLOPの4倍の4倍の値が、性能を損なうことなく得られることを示した。
論文 参考訳(メタデータ) (2024-08-21T16:13:16Z) - Layer-wise Auto-Weighting for Non-Stationary Test-Time Adaptation [40.03897994619606]
連続的および漸進的TTAのためのレイヤワイド自動重み付けアルゴリズムを提案する。
そこで我々は,指数関数的な min-maxスケーラを提案し,外圧を緩和しながら,特定の層をほぼ凍結させる。
CIFAR-10C, CIFAR-100C, ImageNet-Cを用いた実験により, 従来の連続TTA法および漸進TTA法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-10T03:54:40Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Efficient Masked Autoencoders with Self-Consistency [34.7076436760695]
マスク付き画像モデリング(MIM)はコンピュータビジョンにおける強力な自己教師付き事前学習手法として認識されている。
本研究では,自己整合性(EMAE)を有する効率的なマスク付きオートエンコーダを提案し,事前学習効率を向上させる。
EMAEは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、さまざまな下流タスクにおける最先端の転送能力を一貫して取得する。
論文 参考訳(メタデータ) (2023-02-28T09:21:12Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:06:40Z) - Fire Together Wire Together: A Dynamic Pruning Approach with
Self-Supervised Mask Prediction [12.86325214182021]
動的モデルプルーニング(Dynamic Model pruning)は、デプロイ中の各入力サンプルに対する異なるサブネットワークの推測を可能にする、最近の方法である。
現在の動的手法は、間隔損失を誘導することによって正規化を通じて連続的なチャネルゲーティングを学ぶことに依存している。
我々は,CIFARおよびImageNet上で,VGG,ResNet,MobileNetなどのニューラルネットワークの実験を行った。
論文 参考訳(メタデータ) (2021-10-15T17:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。