論文の概要: Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text
- arxiv url: http://arxiv.org/abs/2006.00206v1
- Date: Sat, 30 May 2020 07:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 18:00:36.366336
- Title: Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text
- Title(参考訳): コードミキシングタミル英語テキストの感性分析のためのコーパス作成
- Authors: Bharathi Raja Chakravarthi, Vigneshwaran Muralidaran, Ruba
Priyadharshini, John P. McCrae
- Abstract要約: YouTubeのコメント投稿15,744件を含む,コード変更による感情注釈付きコーパスを作成します。
本稿では,コーパスの作成と極性を割り当てるプロセスについて述べる。
本稿では,このコーパスでトレーニングした感情分析の結果をベンチマークとして,アノテーション間の合意を提示する。
- 参考スコア(独自算出の注目度): 0.9235531183915556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the sentiment of a comment from a video or an image is an
essential task in many applications. Sentiment analysis of a text can be useful
for various decision-making processes. One such application is to analyse the
popular sentiments of videos on social media based on viewer comments. However,
comments from social media do not follow strict rules of grammar, and they
contain mixing of more than one language, often written in non-native scripts.
Non-availability of annotated code-mixed data for a low-resourced language like
Tamil also adds difficulty to this problem. To overcome this, we created a gold
standard Tamil-English code-switched, sentiment-annotated corpus containing
15,744 comment posts from YouTube. In this paper, we describe the process of
creating the corpus and assigning polarities. We present inter-annotator
agreement and show the results of sentiment analysis trained on this corpus as
a benchmark.
- Abstract(参考訳): ビデオや画像からコメントの感情を理解することは、多くのアプリケーションにおいて必須のタスクである。
テキストの感性分析は、様々な意思決定プロセスに有用である。
そのような応用の1つは、視聴者のコメントに基づいてソーシャルメディア上のビデオの人気感情を分析することである。
しかし、ソーシャルメディアのコメントは文法の厳格な規則に従わず、複数の言語が混ざり合っていて、しばしば非ネイティブのスクリプトで書かれている。
Tamilのような低リソース言語向けのアノテーション付きコードミックスデータの非可用性もまた、この問題に困難をもたらしている。
これを克服するために、youtubeのコメント投稿15,744本を含む、金の標準のタミル英語コード切り換え、感情注釈付きコーパスを作成しました。
本稿では,コーパスの作成と極性を割り当てるプロセスについて述べる。
本稿では,このコーパスでトレーニングした感情分析の結果をベンチマークとして示す。
関連論文リスト
- A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Sentiment Analysis with R: Natural Language Processing for
Semi-Automated Assessments of Qualitative Data [0.0]
本チュートリアルでは、Rを用いて感情分析を行うための基本的な機能を紹介し、テキスト文書を段階的に分析する方法を説明する。
2つの政治演説の比較は、可能なユースケースを示している。
論文 参考訳(メタデータ) (2022-06-25T13:25:39Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - CMSAOne@Dravidian-CodeMix-FIRE2020: A Meta Embedding and Transformer
model for Code-Mixed Sentiment Analysis on Social Media Text [9.23545668304066]
コードミックス(CM)は、発話や文で複数の言語を使用する頻繁に観察される現象です。
感性分析(SA)はNLPの基本的なステップであり、モノリンガルテキストでよく研究されている。
本稿では,dravidian code-mixedデータセット上での感情分析のためのトランスフォーマによるメタ埋め込みを提案する。
論文 参考訳(メタデータ) (2021-01-22T08:48:27Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z) - LiSSS: A toy corpus of Spanish Literary Sentences for Emotions detection [1.5356167668895644]
このコーパスは,愛,恐怖,幸福,怒り,悲しみ/痛みという感情のセットで,文章を手作業で分類することで構成する。
LISSSコーパスは、CCライクなアルゴリズムの評価や作成のための無料リソースとして、コミュニティに提供される。
論文 参考訳(メタデータ) (2020-05-17T11:14:30Z) - A computational model implementing subjectivity with the 'Room Theory'.
The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。
単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。
この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文 参考訳(メタデータ) (2020-05-12T21:26:04Z) - PHINC: A Parallel Hinglish Social Media Code-Mixed Corpus for Machine
Translation [1.2301855531996841]
本稿では,13,738のコード混成英語・ヒンディー語文の並列コーパスとその英訳について述べる。
文の翻訳はアノテータが手作業で行う。
我々は、コードミキシング機械翻訳における将来の研究機会を促進するために、並列コーパスをリリースしています。
論文 参考訳(メタデータ) (2020-04-20T17:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。