論文の概要: Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text
- arxiv url: http://arxiv.org/abs/2006.00206v1
- Date: Sat, 30 May 2020 07:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 18:00:36.366336
- Title: Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text
- Title(参考訳): コードミキシングタミル英語テキストの感性分析のためのコーパス作成
- Authors: Bharathi Raja Chakravarthi, Vigneshwaran Muralidaran, Ruba
Priyadharshini, John P. McCrae
- Abstract要約: YouTubeのコメント投稿15,744件を含む,コード変更による感情注釈付きコーパスを作成します。
本稿では,コーパスの作成と極性を割り当てるプロセスについて述べる。
本稿では,このコーパスでトレーニングした感情分析の結果をベンチマークとして,アノテーション間の合意を提示する。
- 参考スコア(独自算出の注目度): 0.9235531183915556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the sentiment of a comment from a video or an image is an
essential task in many applications. Sentiment analysis of a text can be useful
for various decision-making processes. One such application is to analyse the
popular sentiments of videos on social media based on viewer comments. However,
comments from social media do not follow strict rules of grammar, and they
contain mixing of more than one language, often written in non-native scripts.
Non-availability of annotated code-mixed data for a low-resourced language like
Tamil also adds difficulty to this problem. To overcome this, we created a gold
standard Tamil-English code-switched, sentiment-annotated corpus containing
15,744 comment posts from YouTube. In this paper, we describe the process of
creating the corpus and assigning polarities. We present inter-annotator
agreement and show the results of sentiment analysis trained on this corpus as
a benchmark.
- Abstract(参考訳): ビデオや画像からコメントの感情を理解することは、多くのアプリケーションにおいて必須のタスクである。
テキストの感性分析は、様々な意思決定プロセスに有用である。
そのような応用の1つは、視聴者のコメントに基づいてソーシャルメディア上のビデオの人気感情を分析することである。
しかし、ソーシャルメディアのコメントは文法の厳格な規則に従わず、複数の言語が混ざり合っていて、しばしば非ネイティブのスクリプトで書かれている。
Tamilのような低リソース言語向けのアノテーション付きコードミックスデータの非可用性もまた、この問題に困難をもたらしている。
これを克服するために、youtubeのコメント投稿15,744本を含む、金の標準のタミル英語コード切り換え、感情注釈付きコーパスを作成しました。
本稿では,コーパスの作成と極性を割り当てるプロセスについて述べる。
本稿では,このコーパスでトレーニングした感情分析の結果をベンチマークとして示す。
関連論文リスト
- YouTube Comments Decoded: Leveraging LLMs for Low Resource Language Classification [0.0]
コード混合テキストにおける皮肉と感情検出のための新しい金標準コーパスを提案する。
このタスクの主な目的は、タミル・イングリッシュとマラヤラム・イングリッシュのコメントとソーシャルメディアプラットフォームから収集された投稿のコード混成データセットの中で、皮肉と感情の極性を特定することである。
我々はGPT-3.5 Turboのような最先端の大規模言語モデルを実験し、コメントを皮肉的または非皮肉的なカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-06T17:58:01Z) - NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Sentiment Analysis with R: Natural Language Processing for
Semi-Automated Assessments of Qualitative Data [0.0]
本チュートリアルでは、Rを用いて感情分析を行うための基本的な機能を紹介し、テキスト文書を段階的に分析する方法を説明する。
2つの政治演説の比較は、可能なユースケースを示している。
論文 参考訳(メタデータ) (2022-06-25T13:25:39Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - CMSAOne@Dravidian-CodeMix-FIRE2020: A Meta Embedding and Transformer
model for Code-Mixed Sentiment Analysis on Social Media Text [9.23545668304066]
コードミックス(CM)は、発話や文で複数の言語を使用する頻繁に観察される現象です。
感性分析(SA)はNLPの基本的なステップであり、モノリンガルテキストでよく研究されている。
本稿では,dravidian code-mixedデータセット上での感情分析のためのトランスフォーマによるメタ埋め込みを提案する。
論文 参考訳(メタデータ) (2021-01-22T08:48:27Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z) - LiSSS: A toy corpus of Spanish Literary Sentences for Emotions detection [1.5356167668895644]
このコーパスは,愛,恐怖,幸福,怒り,悲しみ/痛みという感情のセットで,文章を手作業で分類することで構成する。
LISSSコーパスは、CCライクなアルゴリズムの評価や作成のための無料リソースとして、コミュニティに提供される。
論文 参考訳(メタデータ) (2020-05-17T11:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。