論文の概要: AIMA at SemEval-2024 Task 10: History-Based Emotion Recognition in Hindi-English Code-Mixed Conversations
- arxiv url: http://arxiv.org/abs/2501.11166v1
- Date: Sun, 19 Jan 2025 20:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:30.042068
- Title: AIMA at SemEval-2024 Task 10: History-Based Emotion Recognition in Hindi-English Code-Mixed Conversations
- Title(参考訳): SemEval-2024 Task 10:Hindi- English Code-Mixed Conversationsにおける履歴に基づく感情認識
- Authors: Mohammad Mahdi Abootorabi, Nona Ghazizadeh, Seyed Arshan Dalili, Alireza Ghahramani Kure, Mahshid Dehghani, Ehsaneddin Asgari,
- Abstract要約: 我々は,サブタスク1のSemEval 2024タスク10に対して,コード混在ヒンディー語会話における感情認識(ERC)専用のソリューションを提案する。
コードミキシングされた会話におけるERCは、既存のモデルは典型的にはモノリンガルなデータセットで訓練され、コードミキシングされたデータではうまく機能しないため、ユニークな課題を示す。
本稿では,現在発話の前と将来の両方の文脈と,会話の逐次的情報を含む一連のモデルを提案する。
コード混在データの処理を容易にするため,Hinglish-to- English変換パイプラインを開発した。
- 参考スコア(独自算出の注目度): 0.6465251961564605
- License:
- Abstract: In this study, we introduce a solution to the SemEval 2024 Task 10 on subtask 1, dedicated to Emotion Recognition in Conversation (ERC) in code-mixed Hindi-English conversations. ERC in code-mixed conversations presents unique challenges, as existing models are typically trained on monolingual datasets and may not perform well on code-mixed data. To address this, we propose a series of models that incorporate both the previous and future context of the current utterance, as well as the sequential information of the conversation. To facilitate the processing of code-mixed data, we developed a Hinglish-to-English translation pipeline to translate the code-mixed conversations into English. We designed four different base models, each utilizing powerful pre-trained encoders to extract features from the input but with varying architectures. By ensembling all of these models, we developed a final model that outperforms all other baselines.
- Abstract(参考訳): 本研究では,サブタスク1のSemEval 2024タスク10に対して,コード混在ヒンディー語会話における感情認識(ERC)専用のソリューションを提案する。
コードミキシングされた会話におけるERCは、既存のモデルは典型的にはモノリンガルなデータセットで訓練され、コードミキシングされたデータではうまく機能しないため、ユニークな課題を示す。
そこで本稿では,現在の発話の過去と未来の両方の文脈と,会話の逐次的情報を含む一連のモデルを提案する。
コードミキシングデータの処理を容易にするため,Hinglish-to- English変換パイプラインを開発し,コードミキシングされた会話を英語に翻訳した。
我々は、4つの異なるベースモデルを設計し、それぞれが強力な事前学習エンコーダを使用して入力から特徴を抽出する。
これらのモデルをすべてアンサンブルすることで、他のすべてのベースラインより優れた最終的なモデルを開発した。
関連論文リスト
- SemEval 2024 -- Task 10: Emotion Discovery and Reasoning its Flip in
Conversation (EDiReF) [61.49972925493912]
SemEval-2024 Task 10は、コードミキシングされた対話における感情の識別に焦点を当てた共有タスクである。
このタスクは3つの異なるサブタスクから構成される - コードミックス対話のための会話における感情認識、コードミックス対話のための感情フリップ推論、および英語対話のための感情フリップ推論である。
このタスクには84人の参加者が参加し、各サブタスクのF1スコアは0.70、0.79、0.76に達した。
論文 参考訳(メタデータ) (2024-02-29T08:20:06Z) - Elevating Code-mixed Text Handling through Auditory Information of Words [24.53638976212391]
本稿では,SOUNDEXの単語の聴覚情報を用いて,コード混合テキストデータを扱うための言語モデルを作成するための効果的な手法を提案する。
提案手法は,SOUNDEX表現(SAMLM)と事前学習モデルに入力データを提供する新しい方法を含む,マスク付き言語モデルに基づく事前学習ステップを含む。
論文 参考訳(メタデータ) (2023-10-27T14:03:30Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing [19.19256927651015]
モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。
事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。
私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
論文 参考訳(メタデータ) (2021-05-18T19:50:25Z) - GupShup: An Annotated Corpus for Abstractive Summarization of
Open-Domain Code-Switched Conversations [28.693328393260906]
ヒンズー語と英語の会話を要約し,最初の会話要約データセットを開発した。
GupShupはヒンディー語で6,831以上の会話と、ヒンディー語とヒンディー語で対応する人間の注釈付き要約を含んでいる。
我々は,最先端の抽象要約モデルを訓練し,自動計測と人間評価の両方を用いてその性能を報告する。
論文 参考訳(メタデータ) (2021-04-17T15:42:01Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。