論文の概要: DialogueLLM: Context and Emotion Knowledge-Tuned LLaMA Models for
Emotion Recognition in Conversations
- arxiv url: http://arxiv.org/abs/2310.11374v2
- Date: Fri, 8 Dec 2023 04:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 18:17:21.914191
- Title: DialogueLLM: Context and Emotion Knowledge-Tuned LLaMA Models for
Emotion Recognition in Conversations
- Title(参考訳): 対話LLM:会話における感情認識のための文脈・感情知識調整LLaMAモデル
- Authors: Yazhou Zhang, Mengyao Wang, Prayag Tiwari, Qiuchi Li, Benyou Wang,
Jing Qin
- Abstract要約: 大規模言語モデル(LLM)は、多くの下流自然言語処理(NLP)タスクに対して異常な有効性を示している。
LLaMAモデルの微調整により得られた文脈と感情の知識をチューニングしたLLMであるダイアログLLMを提案する。
会話データセットにおける3つの感情認識のベンチマークについて,提案手法の総合評価を行った。
- 参考スコア(独自算出の注目度): 29.334759851401746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and their variants have shown extraordinary
efficacy across numerous downstream natural language processing (NLP) tasks,
which has presented a new vision for the development of NLP. Despite their
remarkable performance in natural language generating (NLG), LLMs lack a
distinct focus on the emotion understanding domain. As a result, using LLMs for
emotion recognition may lead to suboptimal and inadequate precision. Another
limitation of LLMs is that they are typical trained without leveraging
multi-modal information. To overcome these limitations, we propose DialogueLLM,
a context and emotion knowledge tuned LLM that is obtained by fine-tuning LLaMA
models with 13,638 multi-modal (i.e., texts and videos) emotional dialogues.
The visual information is considered as the supplementary knowledge to
construct high-quality instructions. We offer a comprehensive evaluation of our
proposed model on three benchmarking emotion recognition in conversations (ERC)
datasets and compare the results against the SOTA baselines and other SOTA
LLMs. Additionally, DialogueLLM-7B can be easily trained using LoRA on a 40GB
A100 GPU in 5 hours, facilitating reproducibility for other researchers.
- Abstract(参考訳): 大規模言語モデル(LLM)とその変種は、多くの下流自然言語処理(NLP)タスクに対して異常な有効性を示しており、NLPの開発に対する新たなビジョンを示している。
自然言語生成(NLG)における顕著な性能にもかかわらず、LLMは感情理解領域に明確な焦点をあてていない。
その結果、LLMを感情認識に使用すると、最適でない精度と不適切な精度が生じる可能性がある。
LLMのもうひとつの制限は、マルチモーダル情報を活用することなく訓練されることだ。
これらの制限を克服するために,13,638個のマルチモーダル(テキストとビデオ)感情対話を用いたLLaMAモデルを用いて,文脈と感情の知識を調整したLLMであるダイアログLLMを提案する。
視覚情報は、高品質な指示を構築するための補足的な知識と見なされる。
本稿では,会話(ERC)データセットにおける3つの感情認識のベンチマークモデルについて総合評価を行い,その結果をSOTAベースラインや他のSOTALLMと比較する。
さらに、DialogueLLM-7Bは、40GBのA100 GPU上で5時間でLoRAを使って簡単にトレーニングできる。
関連論文リスト
- Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Empowering Language Models with Active Inquiry for Deeper Understanding [31.11672018840381]
対話型エンゲージメントを備えた大規模言語モデルを実現するために設計されたLaMAI(Language Model with Active Inquiry)を紹介する。
LaMAIは、アクティブな学習技術を使用して、最も有意義な質問を提起し、動的双方向対話を育む。
様々な複雑なデータセットにわたる実証研究は、LaMAIの有効性を実証している。
論文 参考訳(メタデータ) (2024-02-06T05:24:16Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - Customising General Large Language Models for Specialised Emotion
Recognition Tasks [24.822342337306363]
言語感情認識において,大規模言語モデル (LLM) がどのように機能するかを検討する。
具体的には、公開され、広く使われているLLM -- Chat General Language Modelを例示します。
我々は2つの異なるモーダル適応手法、すなわちディープ・プロンプト・チューニングと低ランク適応を用いてターゲットにカスタマイズする。
実験結果から, 適応型LLMは, 他の最先端の深層モデルよりも容易に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-22T08:09:13Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。