Fugu-MT 論文翻訳(概要): Towards Multimodal Human Intention Understanding Debiasing via Subject-Deconfounding

論文の概要: Towards Multimodal Human Intention Understanding Debiasing via Subject-Deconfounding

arxiv url: http://arxiv.org/abs/2403.05025v1
Date: Fri, 8 Mar 2024 04:03:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 21:07:54.108739
Title: Towards Multimodal Human Intention Understanding Debiasing via Subject-Deconfounding
Title（参考訳）: マルチモーダルヒューマンインテンション理解のデバイアス化に向けて
Authors: Dingkang Yang, Dongling Xiao, Ke Li, Yuzheng Wang, Zhaoyu Chen, Jinjie Wei, Lihua Zhang
Abstract要約: 本研究では,非保守的共同創設者として働く被験者の影響を抑えるために,因果介入モジュールであるSuCIを提案する。プラグアンドプレイコンポーネントとして、SuCIは偏見のない予測を求めるほとんどの方法に広く適用することができる。
参考スコア（独自算出の注目度）: 15.525357031558753
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal intention understanding (MIU) is an indispensable component of human expression analysis (e.g., sentiment or humor) from heterogeneous modalities, including visual postures, linguistic contents, and acoustic behaviors. Existing works invariably focus on designing sophisticated structures or fusion strategies to achieve impressive improvements. Unfortunately, they all suffer from the subject variation problem due to data distribution discrepancies among subjects. Concretely, MIU models are easily misled by distinct subjects with different expression customs and characteristics in the training data to learn subject-specific spurious correlations, significantly limiting performance and generalizability across uninitiated subjects.Motivated by this observation, we introduce a recapitulative causal graph to formulate the MIU procedure and analyze the confounding effect of subjects. Then, we propose SuCI, a simple yet effective causal intervention module to disentangle the impact of subjects acting as unobserved confounders and achieve model training via true causal effects. As a plug-and-play component, SuCI can be widely applied to most methods that seek unbiased predictions. Comprehensive experiments on several MIU benchmarks clearly demonstrate the effectiveness of the proposed module.
Abstract（参考訳）: マルチモーダル意図理解(multimodal intent understanding, miu)は、視覚姿勢、言語内容、音響行動など、異質なモダリティから人間表現分析(例えば感情やユーモア)に欠かせない要素である。既存の作品は、印象的な改善を達成するために、洗練された構造や融合戦略を設計することに集中しています。残念ながら、各被験者はデータ分散の相違により、被験者の変動に悩まされる。具体的には、MIUモデルは、異なる表現習慣と訓練データの特徴を持つ個別の被験者によって容易に誤解され、被検者間での性能と一般化性を著しく制限し、MIUの手順を定式化し、被検者の結束効果を分析するために再カプセル化因果グラフを導入する。そこで本研究では,無観測共同創設者として行動する被験者の影響を解消し,真の因果効果によるモデルトレーニングを実現するための,シンプルで効果的な因果介入モジュールSuCIを提案する。プラグアンドプレイコンポーネントとして、SuCIは偏見のない予測を求めるほとんどの方法に広く適用することができる。複数のMIUベンチマークの総合的な実験により,提案モジュールの有効性が明らかとなった。

関連論文リスト

Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文参考訳（メタデータ） (2025-04-07T06:55:15Z)
Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective [23.49276487518479]
テキストから音声へのモダリティを進化的に伝達することで,3つの要因の影響を別々に検討する。 A因子は比較的小さな影響を持ち、B因子は構文的および意味的モデリングに明らかに影響を与え、C因子は特に基本的な語彙的モデリングにおいて最も大きな影響を与えている。
論文参考訳（メタデータ） (2024-12-22T14:59:19Z)
A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。 GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。 1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文参考訳（メタデータ） (2024-10-25T11:41:27Z)
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。本研究は,幻覚に対する2つの重要な要因を明らかにした。私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文参考訳（メタデータ） (2024-10-16T17:59:02Z)
On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文参考訳（メタデータ） (2024-10-15T13:15:50Z)
Image First or Text First? Optimising the Sequencing of Modalities in Large Language Model Prompting and Reasoning Tasks [0.0]
本稿では,マルチモーダル内における画像とテキストのシークエンシングが,大規模言語モデル(LLM)の推論性能にどのように影響するかを検討する。単一の画像を含む単純なタスクに対して、モダリティシークエンシングは精度に明確な影響を及ぼした。複数の画像と複雑な推論ステップを含むより複雑なタスクでは、シークエンシングの効果が減少し、おそらくタスクの認知的要求が増大したためである。
論文参考訳（メタデータ） (2024-10-04T00:55:15Z)
Most Influential Subset Selection: Challenges, Promises, and Beyond [9.479235005673683]
我々は,最も集団的影響の大きいトレーニングサンプルのサブセットを特定することを目的とした,MISS(Most Influential Subset Selection)問題について検討する。我々は、MISにおける一般的なアプローチを包括的に分析し、その強みと弱点を解明する。本稿では,これらを反復的に適用した適応バージョンが,試料間の相互作用を効果的に捕捉できることを実証する。
論文参考訳（メタデータ） (2024-09-25T20:00:23Z)
Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training [14.450673163785094]
文脈認識感情認識(CAER)は、対象者の感情を認識するための貴重な意味的手がかりを提供する。現在のアプローチは、コンテキストから知覚的に重要な表現を抽出する洗練された構造を設計することに集中している。共同設立者を非難するためのCCIM(Contextual Causal Intervention Module)を提案する。
論文参考訳（メタデータ） (2024-07-06T05:29:02Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Towards Multimodal Sentiment Analysis Debiasing via Bias Purification [21.170000473208372]
マルチモーダル・センティメント・アナリティクス(MSA)は、多様なモダリティから感情に関連する手がかりを統合することで、人間の意図を理解することを目的としている。 MSAタスクは、計画されていないデータセットバイアス、特にマルチモーダル発話レベルのラベルバイアスと単語レベルのコンテキストバイアスに悩まされる。本稿では,従来の可能性ではなく因果関係に基づくマルチモーダル・カウンターファクト・インジェクチャ・インセプティメント分析フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-08T03:55:27Z)
Triple Disentangled Representation Learning for Multimodal Affective Analysis [20.37986194570143]
マルチモーダル学習は感情分析タスクにおいて大きな優位性を示した。多くの新しい研究は、入力データからモダリティ不変およびモダリティ固有表現を切り離し、予測のためにそれらを融合することに焦点を当てている。入力データから、モダリティ不変量、有効モダリティ特化度、非効率モダリティ特化度をアンタングル化する新しい三重非アンタングル化手法TriDiRAを提案する。
論文参考訳（メタデータ） (2024-01-29T12:45:27Z)
Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文参考訳（メタデータ） (2023-12-26T15:44:09Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。 WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文参考訳（メタデータ） (2023-07-05T05:55:10Z)
Context De-confounded Emotion Recognition [12.037240778629346]
コンテキストアウェア感情認識(CAER)は、対象者の感情状態を文脈情報で知覚することを目的としている。長年見過ごされてきた問題は、既存のデータセットのコンテキストバイアスが感情状態のかなり不均衡な分布をもたらすことである。本稿では、そのようなバイアスの影響からモデルを切り離し、CAERタスクにおける変数間の因果関係を定式化する因果関係に基づく視点を提供する。
論文参考訳（メタデータ） (2023-03-21T15:12:20Z)
CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文参考訳（メタデータ） (2022-12-20T18:31:50Z)
Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文参考訳（メタデータ） (2022-07-24T03:57:40Z)
Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文参考訳（メタデータ） (2021-08-26T04:23:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。