論文の概要: Robust Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2502.12425v1
- Date: Tue, 18 Feb 2025 01:49:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:14.521865
- Title: Robust Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning
- Title(参考訳): 物理的視覚的コモンセンス推論のためのロバストな対実学習
- Authors: Mengshi Qi, Changsheng Lv, Huadong Ma,
- Abstract要約: 本稿では,身体的視覚的コモンセンス推論のためのロバスト・ディスタングル・カウンタフル・ラーニング(RDCL)手法を提案する。
主な課題は、欠落したモダリティのシナリオの下でも、人間の推論能力を模倣する方法である。
提案手法は,VLMを含む任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
- 参考スコア(独自算出の注目度): 24.671771440617288
- License:
- Abstract: In this paper, we propose a new Robust Disentangled Counterfactual Learning (RDCL) approach for physical audiovisual commonsense reasoning. The task aims to infer objects' physics commonsense based on both video and audio input, with the main challenge being how to imitate the reasoning ability of humans, even under the scenario of missing modalities. Most of the current methods fail to take full advantage of different characteristics in multi-modal data, and lacking causal reasoning ability in models impedes the progress of implicit physical knowledge inferring. To address these issues, our proposed RDCL method decouples videos into static (time-invariant) and dynamic (time-varying) factors in the latent space by the disentangled sequential encoder, which adopts a variational autoencoder (VAE) to maximize the mutual information with a contrastive loss function. Furthermore, we introduce a counterfactual learning module to augment the model's reasoning ability by modeling physical knowledge relationships among different objects under counterfactual intervention. To alleviate the incomplete modality data issue, we introduce a robust multimodal learning method to recover the missing data by decomposing the shared features and model-specific features. Our proposed method is a plug-and-play module that can be incorporated into any baseline including VLMs. In experiments, we show that our proposed method improves the reasoning accuracy and robustness of baseline methods and achieves the state-of-the-art performance.
- Abstract(参考訳): 本稿では,ロバスト・ディスタングル・カウンタフル・ラーニング (RDCL) による視覚的コモンセンス推論手法を提案する。
このタスクは、ビデオとオーディオの両方の入力に基づいてオブジェクトの物理常識を推論することを目的としており、主な課題は、欠落したモダリティのシナリオであっても、人間の推論能力を模倣する方法である。
現在の手法の多くは、マルチモーダルデータの異なる特性を十分に活用することができず、モデルにおける因果推論能力の欠如は、暗黙の物理的知識推論の進行を妨げる。
これらの問題に対処するため,RDCL法では,映像を静的(時間不変)かつ動的(時間変化)な要素に分解し,コントラスト損失関数で相互情報を最大化するために可変オートエンコーダ(VAE)を採用している。
さらに,異なる物体間の物理的知識関係のモデル化により,モデルの推論能力を増強する対実的学習モジュールを導入する。
不完全なモダリティデータ問題を軽減するために,共有特徴とモデル固有の特徴を分解して欠落したデータを復元する頑健なマルチモーダル学習手法を提案する。
提案手法は,VLMを含む任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
実験では,提案手法はベースライン手法の推論精度とロバスト性を向上し,最先端性能を実現する。
関連論文リスト
- PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Machine Learning Robustness: A Primer [12.426425119438846]
この議論はロバストネスの詳細な定義から始まり、MLモデルが様々な環境条件と予期せぬ環境条件で安定した性能を維持する能力であることを示している。
この章では、データバイアスやモデル複雑性、未特定のMLパイプラインの落とし穴など、堅牢性を阻害する要因について詳しく説明している。
議論は、デバイアスや拡張といったデータ中心のアプローチから始まる、堅牢性を促進するための改善戦略を探求する。
論文 参考訳(メタデータ) (2024-04-01T03:49:42Z) - Disentangled Counterfactual Learning for Physical Audiovisual
Commonsense Reasoning [48.559572337178686]
本稿では,視覚的コモンセンス推論のためのディスタングル型対実学習手法を提案する。
提案手法は,任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2023-10-30T14:16:34Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。