論文の概要: Knowledge-Decoupled Synergetic Learning: An MLLM based Collaborative Approach to Few-shot Multimodal Dialogue Intention Recognition
- arxiv url: http://arxiv.org/abs/2503.04201v1
- Date: Thu, 06 Mar 2025 08:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:32.191055
- Title: Knowledge-Decoupled Synergetic Learning: An MLLM based Collaborative Approach to Few-shot Multimodal Dialogue Intention Recognition
- Title(参考訳): 知識分離型シナジー学習 : MLLMを用いた複数モーダル対話意図認識のための協調的アプローチ
- Authors: Bin Chen, Yu Zhang, Hongfei Ye, Ziyi Huang, Hongyang Chen,
- Abstract要約: 数発のマルチモーダル対話意図認識のためのトレーニングには、2つの相互接続タスクが含まれる。
この現象は、トレーニング過程における重み行列更新の重畳による知識干渉に起因する。
本稿では,知識を解釈可能な規則に変換する知識分離型シナジー学習を提案する。
- 参考スコア(独自算出の注目度): 17.790383360652704
- License:
- Abstract: Few-shot multimodal dialogue intention recognition is a critical challenge in the e-commerce domainn. Previous methods have primarily enhanced model classification capabilities through post-training techniques. However, our analysis reveals that training for few-shot multimodal dialogue intention recognition involves two interconnected tasks, leading to a seesaw effect in multi-task learning. This phenomenon is attributed to knowledge interference stemming from the superposition of weight matrix updates during the training process. To address these challenges, we propose Knowledge-Decoupled Synergetic Learning (KDSL), which mitigates these issues by utilizing smaller models to transform knowledge into interpretable rules, while applying the post-training of larger models. By facilitating collaboration between the large and small multimodal large language models for prediction, our approach demonstrates significant improvements. Notably, we achieve outstanding results on two real Taobao datasets, with enhancements of 6.37\% and 6.28\% in online weighted F1 scores compared to the state-of-the-art method, thereby validating the efficacy of our framework.
- Abstract(参考訳): マルチモーダル対話の意図認識はeコマースドメインにとって重要な課題である。
従来の手法は主にポストトレーニング技術によってモデル分類機能を強化してきた。
しかし,本分析の結果から,マルチモーダル対話意図認識の訓練には2つの相互接続作業が伴うことが明らかとなり,マルチタスク学習におけるシーソー効果がもたらされた。
この現象は、トレーニング過程における重み行列更新の重畳による知識干渉に起因する。
これらの課題に対処するため、我々は、より小さなモデルを用いて知識を解釈可能なルールに変換するとともに、より大きなモデルのポストトレーニングを適用することで、これらの問題を緩和する知識分離型シナジー学習(KDSL)を提案する。
予測のために,大小多モーダル大言語モデルの協調作業を容易にすることにより,本手法は大幅に改善されたことを示す。
特に,本手法と比較してオンライン重み付きF1スコアの6.37\%と6.28\%が向上し,本手法の有効性が検証された。
関連論文リスト
- Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。
これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。
トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文 参考訳(メタデータ) (2024-12-10T20:36:49Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。
本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T07:47:55Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Derivative Free Weight-space Ensembling [0.0]
本稿では,オープンドメイン対話のための数サンプルタスク転送手法であるDFWEを紹介する。
対象タスクのエキスパートモデルをそれぞれ微調整し、複数の異なる知識ベースから目標タスクにアプローチする。
勾配自由度最適化アルゴリズムを用いてモデルの重み付けを線形に補間し,より効率的な重み付けを求める。
論文 参考訳(メタデータ) (2023-07-07T10:42:44Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - In-context Learning Distillation: Transferring Few-shot Learning Ability
of Pre-trained Language Models [55.78264509270503]
そこで本研究では,大規模モデルから小型モデルへ,文脈内数ショット学習能力を移行するために,文脈内学習蒸留を導入する。
メタ・イン・コンテクスト・タニング(Meta-ICT)とマルチタスク・イン・コンテクスト・タニング(Multitask-ICT)の2つの異なる学習パラダイムの下で、イン・コンテクスト・ラーニング・蒸留を行う。
実験と分析により,マルチタスクICTパラダイムの下で,文脈内学習の目的と言語モデリングの目的が相補的であることが明らかとなった。
論文 参考訳(メタデータ) (2022-12-20T22:11:35Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。