論文の概要: Debiased Multimodal Understanding for Human Language Sequences
- arxiv url: http://arxiv.org/abs/2403.05025v3
- Date: Fri, 13 Dec 2024 03:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:42:49.453202
- Title: Debiased Multimodal Understanding for Human Language Sequences
- Title(参考訳): 言語シーケンスに対するデバイアス付きマルチモーダル理解
- Authors: Zhi Xu, Dingkang Yang, Mingcheng Li, Yuzheng Wang, Zhaoyu Chen, Jiawei Chen, Jinjie Wei, Lihua Zhang,
- Abstract要約: 本研究では,非保守的共同創設者として働く被験者の影響を抑えるために,因果介入モジュールであるSuCIを提案する。
プラグアンドプレイコンポーネントとして、SuCIは偏見のない予測を求めるほとんどの方法に広く適用することができる。
- 参考スコア(独自算出の注目度): 14.434841446670726
- License:
- Abstract: Human multimodal language understanding (MLU) is an indispensable component of expression analysis (e.g., sentiment or humor) from heterogeneous modalities, including visual postures, linguistic contents, and acoustic behaviours. Existing works invariably focus on designing sophisticated structures or fusion strategies to achieve impressive improvements. Unfortunately, they all suffer from the subject variation problem due to data distribution discrepancies among subjects. Concretely, MLU models are easily misled by distinct subjects with different expression customs and characteristics in the training data to learn subject-specific spurious correlations, limiting performance and generalizability across new subjects. Motivated by this observation, we introduce a recapitulative causal graph to formulate the MLU procedure and analyze the confounding effect of subjects. Then, we propose SuCI, a simple yet effective causal intervention module to disentangle the impact of subjects acting as unobserved confounders and achieve model training via true causal effects. As a plug-and-play component, SuCI can be widely applied to most methods that seek unbiased predictions. Comprehensive experiments on several MLU benchmarks clearly show the effectiveness of the proposed module.
- Abstract(参考訳): ヒューマン・マルチモーダル言語理解(Human Multimodal Language Understanding、MLU)は、視覚的姿勢、言語的内容、音響的行動を含む異質なモーダル性から表現分析(感情やユーモアなど)に必要な要素である。
既存の作品は、印象的な改善を達成するために、洗練された構造や融合戦略を設計することに集中しています。
残念ながら、各被験者はデータ分散の相違により、被験者の変動に悩まされる。
具体的には、MLUモデルは、異なる表現習慣と訓練データの特徴を持つ異なる被験者によって容易に誤解され、新しい被験者間での性能と一般化性を制限する。
本研究の目的は,MLUの手順を定式化し,被験者の共起効果を分析するために,再カプセル化因果グラフを導入することである。
そこで本研究では,無観測共同創設者として行動する被験者の影響を解消し,真の因果効果を生かしたモデルトレーニングを実現するための,シンプルで効果的な因果介入モジュールであるSuCIを提案する。
プラグアンドプレイコンポーネントとして、SuCIは偏見のない予測を求めるほとんどの方法に広く適用することができる。
いくつかのMLUベンチマークの総合的な実験により,提案モジュールの有効性が明らかとなった。
関連論文リスト
- Why Do Speech Language Models Fail to Generate Semantically Coherent Outputs? A Modality Evolving Perspective [23.49276487518479]
テキストから音声へのモダリティを進化的に伝達することで,3つの要因の影響を別々に検討する。
A因子は比較的小さな影響を持ち、B因子は構文的および意味的モデリングに明らかに影響を与え、C因子は特に基本的な語彙的モデリングにおいて最も大きな影響を与えている。
論文 参考訳(メタデータ) (2024-12-22T14:59:19Z) - A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Image First or Text First? Optimising the Sequencing of Modalities in Large Language Model Prompting and Reasoning Tasks [0.0]
本稿では,マルチモーダル内における画像とテキストのシークエンシングが,大規模言語モデル(LLM)の推論性能にどのように影響するかを検討する。
単一の画像を含む単純なタスクに対して、モダリティシークエンシングは精度に明確な影響を及ぼした。
複数の画像と複雑な推論ステップを含むより複雑なタスクでは、シークエンシングの効果が減少し、おそらくタスクの認知的要求が増大したためである。
論文 参考訳(メタデータ) (2024-10-04T00:55:15Z) - Most Influential Subset Selection: Challenges, Promises, and Beyond [9.479235005673683]
我々は,最も集団的影響の大きいトレーニングサンプルのサブセットを特定することを目的とした,MISS(Most Influential Subset Selection)問題について検討する。
我々は、MISにおける一般的なアプローチを包括的に分析し、その強みと弱点を解明する。
本稿では,これらを反復的に適用した適応バージョンが,試料間の相互作用を効果的に捕捉できることを実証する。
論文 参考訳(メタデータ) (2024-09-25T20:00:23Z) - Towards Context-Aware Emotion Recognition Debiasing from a Causal Demystification Perspective via De-confounded Training [14.450673163785094]
文脈認識感情認識(CAER)は、対象者の感情を認識するための貴重な意味的手がかりを提供する。
現在のアプローチは、コンテキストから知覚的に重要な表現を抽出する洗練された構造を設計することに集中している。
共同設立者を非難するためのCCIM(Contextual Causal Intervention Module)を提案する。
論文 参考訳(メタデータ) (2024-07-06T05:29:02Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - CausalDialogue: Modeling Utterance-level Causality in Conversations [83.03604651485327]
クラウドソーシングを通じて、CausalDialogueという新しいデータセットをコンパイルし、拡張しました。
このデータセットは、有向非巡回グラフ(DAG)構造内に複数の因果効果対を含む。
ニューラル会話モデルの訓練における発話レベルにおける因果性の影響を高めるために,Exponential Average Treatment Effect (ExMATE) と呼ばれる因果性強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T18:31:50Z) - Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment
Analysis [56.84237932819403]
本稿では,OODの高次一般化に対するテキストモダリティの悪影響を推定・緩和することを目的とする。
そこで本研究では,マルチモーダル感情分析のためのモデルに依存しない反現実的フレームワークを考案した。
論文 参考訳(メタデータ) (2022-07-24T03:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。