論文の概要: JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using
in-context learning with GPT and instruction-tuned Llama models
- arxiv url: http://arxiv.org/abs/2403.04798v1
- Date: Tue, 5 Mar 2024 12:07:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:02:45.782426
- Title: JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using
in-context learning with GPT and instruction-tuned Llama models
- Title(参考訳): semeval 2024タスク3: gptと命令調整ラマモデルを用いたコンテキスト内学習を用いたマルチモーダルecacの2段階アプローチ
- Authors: Arefa, Mohammed Abbas Ansari, Chandni Saxena, Tanvir Ahmad
- Abstract要約: 本稿では,SemEval-2024タスク3におけるシステム開発について述べる:「会話におけるマルチモーダル感情原因分析の競争」
人間の会話における感情を効果的に捉えるには、テキスト、オーディオ、ビデオなどの複数のモダリティを統合する必要がある。
提案手法は2段階の枠組みでこれらの課題に対処する。
- 参考スコア(独自算出の注目度): 1.0446041735532203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our system development for SemEval-2024 Task 3: "The
Competition of Multimodal Emotion Cause Analysis in Conversations". Effectively
capturing emotions in human conversations requires integrating multiple
modalities such as text, audio, and video. However, the complexities of these
diverse modalities pose challenges for developing an efficient multimodal
emotion cause analysis (ECA) system. Our proposed approach addresses these
challenges by a two-step framework. We adopt two different approaches in our
implementation. In Approach 1, we employ instruction-tuning with two separate
Llama 2 models for emotion and cause prediction. In Approach 2, we use GPT-4V
for conversation-level video description and employ in-context learning with
annotated conversation using GPT 3.5. Our system wins rank 4, and system
ablation experiments demonstrate that our proposed solutions achieve
significant performance gains. All the experimental codes are available on
Github.
- Abstract(参考訳): 本稿では,SemEval-2024タスク3「会話におけるマルチモーダル感情原因分析の競争」のシステム開発について述べる。
人間の会話における感情を効果的に捉えるには、テキスト、オーディオ、ビデオなどの複数のモダリティを統合する必要がある。
しかし、これらの多様性の複雑さは、効率的なマルチモーダル感情原因分析(ECA)システムの開発に困難をもたらす。
提案手法は2段階の枠組みでこれらの課題に対処する。
実装には2つの異なるアプローチを採用しています。
アプローチ1では,感情予測と原因予測のために2つの異なるラマ2モデルを用いた命令チューニングを行う。
アプローチ2では、会話レベルのビデオ記述にGPT-4Vを使用し、GPT 3.5を用いて注釈付き会話を用いたテキスト内学習を採用する。
システムではランク4を勝ち取り,システムアブレーション実験により,提案手法が性能向上に寄与していることが実証された。
実験コードはすべてGithubで公開されている。
関連論文リスト
- What Is Missing in Multilingual Visual Reasoning and How to Fix It [64.47951359580556]
視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
論文 参考訳(メタデータ) (2024-03-03T05:45:27Z) - InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。
InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2023-09-21T09:22:07Z) - On Robustness in Multimodal Learning [75.03719000820388]
マルチモーダル学習は、ビデオ、オーディオ、テキストなどの複数の入力モダリティの学習として定義される。
本稿では,一般的なマルチモーダル表現学習手法の体系的解析を行うためのマルチモーダルロバストネスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:02:07Z) - Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue [50.279206765971125]
本稿では,会話や状況から多モーダル入力を解釈する3つの手法について検討する。
最適手法であるシーン対話アライメントは,SIMMC 2.1ベースラインと比較して20%F1スコアで性能を向上する。
論文 参考訳(メタデータ) (2023-02-28T15:45:20Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Two-Aspect Information Fusion Model For ABAW4 Multi-task Challenge [41.32053075381269]
ABAWのタスクは、ビデオからフレームレベルの感情記述子を予測することである。
異なる種類の情報の完全統合を実現するために,新しいエンド・ツー・エンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-07-23T01:48:51Z) - Scene-Aware Prompt for Multi-modal Dialogue Understanding and Generation [20.693465164885325]
本稿では,NLPCC-2022-Shared-Task-4マルチモーダル対話理解・生成(MDUG)におけるTeam LingJingの実験手法を紹介する。
MDUGタスクは、マルチモーダルコンテキスト理解と応答生成の2つのフェーズに分けられる。
シーン理解と対話生成の両方に視覚情報をフル活用するために,MDUGタスクのためのシーン認識プロンプトを提案する。
論文 参考訳(メタデータ) (2022-07-05T05:54:20Z) - Multi-Task Learning for Situated Multi-Domain End-to-End Dialogue
Systems [21.55075825370981]
我々はマルチタスク学習技術を利用して、より困難なデータセットに基づいてGPT-2ベースのモデルをトレーニングする。
本手法は,タスクやドメイン固有のモデルと比較して,すべてのサブタスクにおいて,ドメイン間のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-10-11T12:36:30Z) - A Unified Pre-training Framework for Conversational AI [25.514505462661763]
PLATO-2は、簡略化された1対1のマッピング関係に適合するように、2段階のカリキュラム学習によって訓練される。
PLATO-2は3つのタスクで1位を獲得し、様々な対話システムのための統一されたフレームワークとしての有効性を検証する。
論文 参考訳(メタデータ) (2021-05-06T07:27:11Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。