論文の概要: Towards Multimodal Human Intention Understanding Debiasing via
Subject-Deconfounding
- arxiv url: http://arxiv.org/abs/2403.05025v1
- Date: Fri, 8 Mar 2024 04:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:07:54.108739
- Title: Towards Multimodal Human Intention Understanding Debiasing via
Subject-Deconfounding
- Title(参考訳): マルチモーダルヒューマンインテンション理解のデバイアス化に向けて
- Authors: Dingkang Yang, Dongling Xiao, Ke Li, Yuzheng Wang, Zhaoyu Chen, Jinjie
Wei, Lihua Zhang
- Abstract要約: 本研究では,非保守的共同創設者として働く被験者の影響を抑えるために,因果介入モジュールであるSuCIを提案する。
プラグアンドプレイコンポーネントとして、SuCIは偏見のない予測を求めるほとんどの方法に広く適用することができる。
- 参考スコア(独自算出の注目度): 15.525357031558753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal intention understanding (MIU) is an indispensable component of
human expression analysis (e.g., sentiment or humor) from heterogeneous
modalities, including visual postures, linguistic contents, and acoustic
behaviors. Existing works invariably focus on designing sophisticated
structures or fusion strategies to achieve impressive improvements.
Unfortunately, they all suffer from the subject variation problem due to data
distribution discrepancies among subjects. Concretely, MIU models are easily
misled by distinct subjects with different expression customs and
characteristics in the training data to learn subject-specific spurious
correlations, significantly limiting performance and generalizability across
uninitiated subjects.Motivated by this observation, we introduce a
recapitulative causal graph to formulate the MIU procedure and analyze the
confounding effect of subjects. Then, we propose SuCI, a simple yet effective
causal intervention module to disentangle the impact of subjects acting as
unobserved confounders and achieve model training via true causal effects. As a
plug-and-play component, SuCI can be widely applied to most methods that seek
unbiased predictions. Comprehensive experiments on several MIU benchmarks
clearly demonstrate the effectiveness of the proposed module.
- Abstract(参考訳): マルチモーダル意図理解(multimodal intent understanding, miu)は、視覚姿勢、言語内容、音響行動など、異質なモダリティから人間表現分析(例えば感情やユーモア)に欠かせない要素である。
既存の作品は、印象的な改善を達成するために、洗練された構造や融合戦略を設計することに集中しています。
残念ながら、各被験者はデータ分散の相違により、被験者の変動に悩まされる。
具体的には、MIUモデルは、異なる表現習慣と訓練データの特徴を持つ個別の被験者によって容易に誤解され、被検者間での性能と一般化性を著しく制限し、MIUの手順を定式化し、被検者の結束効果を分析するために再カプセル化因果グラフを導入する。
そこで本研究では,無観測共同創設者として行動する被験者の影響を解消し,真の因果効果によるモデルトレーニングを実現するための,シンプルで効果的な因果介入モジュールSuCIを提案する。
プラグアンドプレイコンポーネントとして、SuCIは偏見のない予測を求めるほとんどの方法に広く適用することができる。
複数のMIUベンチマークの総合的な実験により,提案モジュールの有効性が明らかとなった。
関連論文リスト
- A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training [14.450673163785094]
文脈認識感情認識(CAER)は、対象者の感情を認識するための貴重な意味的手がかりを提供する。
現在のアプローチは、コンテキストから知覚的に重要な表現を抽出する洗練された構造を設計することに集中している。
共同設立者を非難するためのCCIM(Contextual Causal Intervention Module)を提案する。
論文 参考訳(メタデータ) (2024-07-06T05:29:02Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Towards Multimodal Sentiment Analysis Debiasing via Bias Purification [21.170000473208372]
マルチモーダル・センティメント・アナリティクス(MSA)は、多様なモダリティから感情に関連する手がかりを統合することで、人間の意図を理解することを目的としている。
MSAタスクは、計画されていないデータセットバイアス、特にマルチモーダル発話レベルのラベルバイアスと単語レベルのコンテキストバイアスに悩まされる。
本稿では,従来の可能性ではなく因果関係に基づくマルチモーダル・カウンターファクト・インジェクチャ・インセプティメント分析フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T03:55:27Z) - Triple Disentangled Representation Learning for Multimodal Affective Analysis [20.37986194570143]
マルチモーダル学習は感情分析タスクにおいて大きな優位性を示した。
多くの新しい研究は、入力データからモダリティ不変およびモダリティ固有表現を切り離し、予測のためにそれらを融合することに焦点を当てている。
入力データから、モダリティ不変量、有効モダリティ特化度、非効率モダリティ特化度をアンタングル化する新しい三重非アンタングル化手法TriDiRAを提案する。
論文 参考訳(メタデータ) (2024-01-29T12:45:27Z) - Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Context De-confounded Emotion Recognition [12.037240778629346]
コンテキストアウェア感情認識(CAER)は、対象者の感情状態を文脈情報で知覚することを目的としている。
長年見過ごされてきた問題は、既存のデータセットのコンテキストバイアスが感情状態のかなり不均衡な分布をもたらすことである。
本稿では、そのようなバイアスの影響からモデルを切り離し、CAERタスクにおける変数間の因果関係を定式化する因果関係に基づく視点を提供する。
論文 参考訳(メタデータ) (2023-03-21T15:12:20Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。