論文の概要: MMT: A Multilingual and Multi-Topic Indian Social Media Dataset
- arxiv url: http://arxiv.org/abs/2304.00634v1
- Date: Sun, 2 Apr 2023 21:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:01:59.851875
- Title: MMT: A Multilingual and Multi-Topic Indian Social Media Dataset
- Title(参考訳): MMT: マルチリンガルでマルチトピックなインドのソーシャルメディアデータセット
- Authors: Dwip Dalal, Vivek Srivastava, Mayank Singh
- Abstract要約: ソーシャルメディアは異文化間コミュニケーションにおいて重要な役割を担っている。
多くはコードミキシングと多言語形式で行われる。
我々はTwitterから収集した大規模多言語・マルチトピックデータセット(MMT)を紹介する。
- 参考スコア(独自算出の注目度): 1.0413233169366503
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social media plays a significant role in cross-cultural communication. A vast
amount of this occurs in code-mixed and multilingual form, posing a significant
challenge to Natural Language Processing (NLP) tools for processing such
information, like language identification, topic modeling, and named-entity
recognition. To address this, we introduce a large-scale multilingual, and
multi-topic dataset (MMT) collected from Twitter (1.7 million Tweets),
encompassing 13 coarse-grained and 63 fine-grained topics in the Indian
context. We further annotate a subset of 5,346 tweets from the MMT dataset with
various Indian languages and their code-mixed counterparts. Also, we
demonstrate that the currently existing tools fail to capture the linguistic
diversity in MMT on two downstream tasks, i.e., topic modeling and language
identification. To facilitate future research, we will make the anonymized and
annotated dataset available in the public domain.
- Abstract(参考訳): ソーシャルメディアは異文化間コミュニケーションにおいて重要な役割を担っている。
言語識別、トピックモデリング、名前付き一致認識などの情報を処理するための自然言語処理(NLP)ツールにとって、大きな課題となっている。
これを解決するために、インドにおける13の粗粒度と63のきめ細かいトピックを含む、Twitter (170万ツイート) から収集した大規模多言語、マルチトピックデータセット(MMT)を紹介した。
さらに、MMTデータセットから5,346のツイートのサブセットに、さまざまなインドの言語とそのコードミキシングされたツイートを注釈付けします。
また,現在存在するツールは,2つの下流タスク,すなわちトピックモデリングと言語識別において,MTの言語多様性を捉えることができないことを示す。
今後の研究を容易にするため、パブリックドメインで匿名化およびアノテーション付きデータセットを利用可能にします。
関連論文リスト
- M2DS: Multilingual Dataset for Multi-document Summarisation [0.5071800070021028]
MDS(Multi-document Summarisation)は、顧客レビュー、学術論文、医療および法律文書、ニュース記事を含む多様なデータセットを提供する。
しかし、これらのデータセットの英語中心の性質は、今日のグローバル化されたデジタルランドスケープにおいて、多言語データセットの顕著な空白を生み出している。
本稿では、M2DSについて、その特異な多言語的側面を強調し、我々のデータセットで評価された最先端のMDSモデルからのベースラインスコアを含む。
論文 参考訳(メタデータ) (2024-07-17T06:25:51Z) - Breaking Language Barriers: A Question Answering Dataset for Hindi and
Marathi [1.03590082373586]
本稿では,ヒンディー語とマラティー語という2つの言語を対象とした質問回答データセットの開発に焦点をあてる。
ヒンディー語は世界第3位の言語であり、マラシ語は世界第11位の言語であるにもかかわらず、両方の言語は効率的な質問回答システムを構築するための限られた資源に直面している。
これらの言語で利用可能な最大の質問回答データセットをリリースし、各データセットには28,000のサンプルが含まれています。
論文 参考訳(メタデータ) (2023-08-19T00:39:21Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Evaluating Inter-Bilingual Semantic Parsing for Indian Languages [9.838755823660147]
本研究では,11の異なるインド言語を対象とした言語間セマンティック解析データセットIE-SEMPARSEを提案する。
本稿では,提案課題の実用性を強調し,既存の多言語Seq2seqモデルを複数の列車試験戦略で評価する。
論文 参考訳(メタデータ) (2023-04-25T17:24:32Z) - MUTANT: A Multi-sentential Code-mixed Hinglish Dataset [16.14337612590717]
本稿では,多言語記事から多文コード混合テキスト(MCT)を識別する新しいタスクを提案する。
ユースケースとして、多言語の記事を活用し、第一級の多文コード混合Hinglishデータセットを構築します。
MUTANTデータセットは67kの記事と85kのHinglish MCTからなる。
論文 参考訳(メタデータ) (2023-02-23T04:04:18Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - M2H2: A Multimodal Multiparty Hindi Dataset For Humor Recognition in
Conversations [72.81164101048181]
テレビシリーズ『Shrimaan Shrimati Phir Se』の13話から6,191発の発声を含む会話におけるマルチモーダル・マルチパーティ・ヒンディー・ヒューム(M2H2)認識のためのデータセットを提案する。
それぞれの発話はユーモア/非感情ラベルでアノテートされ、音響、視覚、テキストのモダリティを含む。
M2H2データセットにおける実験結果から,マルチモーダル情報はユーモア認識のための単調な情報を補完することが示された。
論文 参考訳(メタデータ) (2021-08-03T02:54:09Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of
Code-Mixed Dravidian text using XLNet [0.0]
ソーシャルメディアは多言語社会に浸透してきたが、その多くは英語をコミュニケーションの言語として好んでいる。
会話中に文化的な言語と英語を混ぜることで、多言語データが多くなり、今日の世界で利用できるこのコード混在データと呼ぶのは自然なことです。
このようなデータを用いた下流NLPタスクは、複数の言語にまたがるセマンティックな性質のため、難しい。
本稿では,自動回帰XLNetモデルを用いて,タミル・イングリッシュとマラヤラム・イングリッシュ・データセットの感情分析を行う。
論文 参考訳(メタデータ) (2020-10-15T14:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。