論文の概要: Disentangled Counterfactual Learning for Physical Audiovisual
Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2310.19559v1
- Date: Mon, 30 Oct 2023 14:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:54:02.698677
- Title: Disentangled Counterfactual Learning for Physical Audiovisual
Commonsense Reasoning
- Title(参考訳): 物理視聴覚コモンセンス推論のための不連続反事実学習
- Authors: Changsheng Lv and Shuai Zhang and Yapeng Tian and Mengshi Qi and
Huadong Ma
- Abstract要約: 本稿では,視覚的コモンセンス推論のためのディスタングル型対実学習手法を提案する。
提案手法は,任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
- 参考スコア(独自算出の注目度): 48.559572337178686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a Disentangled Counterfactual Learning~(DCL)
approach for physical audiovisual commonsense reasoning. The task aims to infer
objects' physics commonsense based on both video and audio input, with the main
challenge is how to imitate the reasoning ability of humans. Most of the
current methods fail to take full advantage of different characteristics in
multi-modal data, and lacking causal reasoning ability in models impedes the
progress of implicit physical knowledge inferring. To address these issues, our
proposed DCL method decouples videos into static (time-invariant) and dynamic
(time-varying) factors in the latent space by the disentangled sequential
encoder, which adopts a variational autoencoder (VAE) to maximize the mutual
information with a contrastive loss function. Furthermore, we introduce a
counterfactual learning module to augment the model's reasoning ability by
modeling physical knowledge relationships among different objects under
counterfactual intervention. Our proposed method is a plug-and-play module that
can be incorporated into any baseline. In experiments, we show that our
proposed method improves baseline methods and achieves state-of-the-art
performance. Our source code is available at https://github.com/Andy20178/DCL.
- Abstract(参考訳): 本稿では,物理視聴覚コモンセンス推論のためのdcl(disentangleed counterfactual learning)アプローチを提案する。
このタスクは、ビデオとオーディオの両方の入力に基づいて物体の物理常識を推論することを目的としており、主な課題は人間の推論能力を模倣する方法である。
現在の手法のほとんどは、マルチモーダルデータにおける異なる特徴を十分に活用できず、モデルの因果推論能力の欠如は、暗黙の物理的知識の推論の進歩を妨げる。
これらの問題に対処するために,本提案手法では,可変オートエンコーダ (vae) を応用し,相互情報をコントラスト損失関数で最大化する不連続シーケンシャルエンコーダ (disentangled sequential encoder) による潜在空間内の静的(時間不変)および動的(時変)要素に映像を分離する。
さらに,異なる物体間の物理的知識関係のモデル化により,モデルの推論能力を増強する対実的学習モジュールを導入する。
提案手法は,任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
実験では,提案手法はベースライン法を改良し,最先端の性能を実現する。
ソースコードはhttps://github.com/andy20178/dclで入手できます。
関連論文リスト
- Learning Physics-Consistent Material Behavior Without Prior Knowledge [6.691537914484337]
我々は,畳み込み入力ニューラルネットワーク(ICNN)を代理モデルとして使用することにより,制約を克服するuLEDと呼ばれる機械学習アプローチを導入する。
我々は、ノイズのかなりのレベルに対して頑健であり、データ解像度の増大とともに基礎的な真実に収束することを実証した。
論文 参考訳(メタデータ) (2024-07-25T08:24:04Z) - DynaMMo: Dynamic Model Merging for Efficient Class Incremental Learning for Medical Images [0.8213829427624407]
継続学習は、学習した情報を保持しながら新しいデータから知識を得る能力であり、機械学習における根本的な課題である。
本研究では,モデル学習の異なる段階で複数のネットワークをマージし,より優れた計算効率を実現するDynaMMOを提案する。
我々はDynaMMoを3つの公開データセット上で評価し、既存のアプローチと比較してその効果を実証した。
論文 参考訳(メタデータ) (2024-04-22T11:37:35Z) - Towards Principled Representation Learning from Videos for Reinforcement Learning [23.877731515619868]
ビデオデータを用いた意思決定のための事前学習表現について検討する。
我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-03-20T17:28:17Z) - Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。
付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文 参考訳(メタデータ) (2023-11-09T18:59:05Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。
本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。
本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文 参考訳(メタデータ) (2022-05-26T13:21:01Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。