Fugu-MT 論文翻訳(概要): Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning

論文の概要: Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning

arxiv url: http://arxiv.org/abs/2310.19559v2
Date: Thu, 2 Nov 2023 02:36:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-03 10:15:12.567812
Title: Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning
Title（参考訳）: 物理視聴覚コモンセンス推論のための不連続反事実学習
Authors: Changsheng Lv and Shuai Zhang and Yapeng Tian and Mengshi Qi and Huadong Ma
Abstract要約: 本稿では,視覚的コモンセンス推論のためのディスタングル型対実学習手法を提案する。提案手法は,任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
参考スコア（独自算出の注目度）: 48.559572337178686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a Disentangled Counterfactual Learning~(DCL) approach for physical audiovisual commonsense reasoning. The task aims to infer objects' physics commonsense based on both video and audio input, with the main challenge is how to imitate the reasoning ability of humans. Most of the current methods fail to take full advantage of different characteristics in multi-modal data, and lacking causal reasoning ability in models impedes the progress of implicit physical knowledge inferring. To address these issues, our proposed DCL method decouples videos into static (time-invariant) and dynamic (time-varying) factors in the latent space by the disentangled sequential encoder, which adopts a variational autoencoder (VAE) to maximize the mutual information with a contrastive loss function. Furthermore, we introduce a counterfactual learning module to augment the model's reasoning ability by modeling physical knowledge relationships among different objects under counterfactual intervention. Our proposed method is a plug-and-play module that can be incorporated into any baseline. In experiments, we show that our proposed method improves baseline methods and achieves state-of-the-art performance. Our source code is available at https://github.com/Andy20178/DCL.
Abstract（参考訳）: 本稿では,物理視聴覚コモンセンス推論のためのdcl(disentangleed counterfactual learning)アプローチを提案する。このタスクは、ビデオとオーディオの両方の入力に基づいて物体の物理常識を推論することを目的としており、主な課題は人間の推論能力を模倣する方法である。現在の手法のほとんどは、マルチモーダルデータにおける異なる特徴を十分に活用できず、モデルの因果推論能力の欠如は、暗黙の物理的知識の推論の進歩を妨げる。これらの問題に対処するために,本提案手法では,可変オートエンコーダ (vae) を応用し,相互情報をコントラスト損失関数で最大化する不連続シーケンシャルエンコーダ (disentangled sequential encoder) による潜在空間内の静的(時間不変)および動的(時変)要素に映像を分離する。さらに,異なる物体間の物理的知識関係のモデル化により,モデルの推論能力を増強する対実的学習モジュールを導入する。提案手法は,任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。実験では,提案手法はベースライン法を改良し,最先端の性能を実現する。ソースコードはhttps://github.com/andy20178/dclで入手できます。

関連論文リスト

Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文参考訳（メタデータ） (2025-10-21T06:11:24Z)
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文参考訳（メタデータ） (2025-10-08T21:03:46Z)
Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。 DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文参考訳（メタデータ） (2025-05-27T18:26:43Z)
Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文参考訳（メタデータ） (2025-03-11T13:50:22Z)
Robust Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning [24.671771440617288]
本稿では,身体的視覚的コモンセンス推論のためのロバスト・ディスタングル・カウンタフル・ラーニング(RDCL)手法を提案する。主な課題は、欠落したモダリティのシナリオの下でも、人間の推論能力を模倣する方法である。提案手法は,VLMを含む任意のベースラインに組み込むことができるプラグアンドプレイモジュールである。
論文参考訳（メタデータ） (2025-02-18T01:49:45Z)
LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文参考訳（メタデータ） (2024-12-11T18:59:33Z)
Learning Physics-Consistent Material Behavior Without Prior Knowledge [6.691537914484337]
我々は,畳み込み入力ニューラルネットワーク(ICNN)を代理モデルとして使用することにより,制約を克服するuLEDと呼ばれる機械学習アプローチを導入する。我々は、ノイズのかなりのレベルに対して頑健であり、データ解像度の増大とともに基礎的な真実に収束することを実証した。
論文参考訳（メタデータ） (2024-07-25T08:24:04Z)
DynaMMo: Dynamic Model Merging for Efficient Class Incremental Learning for Medical Images [0.8213829427624407]
継続学習は、学習した情報を保持しながら新しいデータから知識を得る能力であり、機械学習における根本的な課題である。本研究では,モデル学習の異なる段階で複数のネットワークをマージし,より優れた計算効率を実現するDynaMMOを提案する。我々はDynaMMoを3つの公開データセット上で評価し、既存のアプローチと比較してその効果を実証した。
論文参考訳（メタデータ） (2024-04-22T11:37:35Z)
Towards Principled Representation Learning from Videos for Reinforcement Learning [23.877731515619868]
ビデオデータを用いた意思決定のための事前学習表現について検討する。我々は,ビデオデータを用いたMDPの潜在状態表現の学習に重点を置いている。
論文参考訳（メタデータ） (2024-03-20T17:28:17Z)
Diffusion-Generative Multi-Fidelity Learning for Physical Simulation [24.723536390322582]
本研究では,微分方程式(SDE)に基づく拡散生成多忠実学習法を開発した。付加的な入力(時間変数や空間変数)を条件にすることで、我々のモデルは効率的に多次元の解列を学習し、予測することができる。
論文参考訳（メタデータ） (2023-11-09T18:59:05Z)
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文参考訳（メタデータ） (2023-07-16T05:41:53Z)
Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。 WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文参考訳（メタデータ） (2023-07-05T05:55:10Z)
Accelerating exploration and representation learning with offline pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文参考訳（メタデータ） (2023-03-31T18:03:30Z)
Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文参考訳（メタデータ） (2022-10-07T17:56:53Z)
Deep Active Learning with Noise Stability [24.54974925491753]
ラベルのないデータの不確実性推定は、アクティブな学習に不可欠である。本稿では,雑音の安定性を利用して不確実性を推定する新しいアルゴリズムを提案する。本手法はコンピュータビジョン,自然言語処理,構造データ解析など,様々なタスクに適用可能である。
論文参考訳（メタデータ） (2022-05-26T13:21:01Z)
Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文参考訳（メタデータ） (2022-02-02T23:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。