論文の概要: Disentangled Counterfactual Learning for Physical Audiovisual
Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2310.19559v2
- Date: Thu, 2 Nov 2023 02:36:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 10:15:12.567812
- Title: Disentangled Counterfactual Learning for Physical Audiovisual
Commonsense Reasoning
- Title(参考訳): 物理視聴覚コモンセンス推論のための不連続反事実学習
- Authors: Changsheng Lv and Shuai Zhang and Yapeng Tian and Mengshi Qi and
Huadong Ma
- Abstract要約: 本稿では,視覚的コモンセンス推論のためのディスタングル型対実学習手法を提案する。
提案手法は,任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
- 参考スコア(独自算出の注目度): 48.559572337178686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a Disentangled Counterfactual Learning~(DCL)
approach for physical audiovisual commonsense reasoning. The task aims to infer
objects' physics commonsense based on both video and audio input, with the main
challenge is how to imitate the reasoning ability of humans. Most of the
current methods fail to take full advantage of different characteristics in
multi-modal data, and lacking causal reasoning ability in models impedes the
progress of implicit physical knowledge inferring. To address these issues, our
proposed DCL method decouples videos into static (time-invariant) and dynamic
(time-varying) factors in the latent space by the disentangled sequential
encoder, which adopts a variational autoencoder (VAE) to maximize the mutual
information with a contrastive loss function. Furthermore, we introduce a
counterfactual learning module to augment the model's reasoning ability by
modeling physical knowledge relationships among different objects under
counterfactual intervention. Our proposed method is a plug-and-play module that
can be incorporated into any baseline. In experiments, we show that our
proposed method improves baseline methods and achieves state-of-the-art
performance. Our source code is available at https://github.com/Andy20178/DCL.
- Abstract(参考訳): 本稿では,物理視聴覚コモンセンス推論のためのdcl(disentangleed counterfactual learning)アプローチを提案する。
このタスクは、ビデオとオーディオの両方の入力に基づいて物体の物理常識を推論することを目的としており、主な課題は人間の推論能力を模倣する方法である。
現在の手法のほとんどは、マルチモーダルデータにおける異なる特徴を十分に活用できず、モデルの因果推論能力の欠如は、暗黙の物理的知識の推論の進歩を妨げる。
これらの問題に対処するために,本提案手法では,可変オートエンコーダ (vae) を応用し,相互情報をコントラスト損失関数で最大化する不連続シーケンシャルエンコーダ (disentangled sequential encoder) による潜在空間内の静的(時間不変)および動的(時変)要素に映像を分離する。
さらに,異なる物体間の物理的知識関係のモデル化により,モデルの推論能力を増強する対実的学習モジュールを導入する。
提案手法は,任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
実験では,提案手法はベースライン法を改良し,最先端の性能を実現する。
ソースコードはhttps://github.com/andy20178/dclで入手できます。
関連論文リスト
- Don't Judge by the Look: A Motion Coherent Augmentation for Video Recognition [56.09346222721583]
Motion Coherent Augmentation (MCA)は、ビデオ認識のためのデータ拡張手法である。
MCAはビデオの外観変化を導入し、静的な外観ではなく、モデルに動きのパターンを優先するよう暗黙的に促す。
論文 参考訳(メタデータ) (2024-03-14T15:53:04Z) - Personalized Federated Learning with Contextual Modulation and
Meta-Learning [2.7716102039510564]
フェデレーション学習は、分散データソース上で機械学習モデルをトレーニングするための有望なアプローチとして登場した。
本稿では,フェデレートラーニングとメタラーニングを併用して,効率性と一般化能力を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-23T08:18:22Z) - Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。
付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文 参考訳(メタデータ) (2023-11-09T18:59:05Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Revisiting Pre-training in Audio-Visual Learning [6.547660539954143]
事前学習したモデルが2つの音声視覚学習シナリオに与える影響について検討する。
対象タスクに対する事前学習モデルのキャパシティをよりよく活用するために,Adaptive Batchnorm Re-initialization (ABRi)を提案する。
論文 参考訳(メタデータ) (2023-02-07T15:34:14Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。