論文の概要: Video Games as a Corpus: Sentiment Analysis using Fallout New Vegas
Dialog
- arxiv url: http://arxiv.org/abs/2212.02168v1
- Date: Mon, 5 Dec 2022 11:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:50:05.611439
- Title: Video Games as a Corpus: Sentiment Analysis using Fallout New Vegas
Dialog
- Title(参考訳): コーパスとしてのビデオゲーム:Fallout New Vegas Dialogを用いた感性分析
- Authors: Mika H\"am\"al\"ainen and Khalid Alnajjar and Thierry Poibeau
- Abstract要約: 本稿では,Fallout New Vegas から多言語感情注釈付きダイアログデータセットを抽出する手法を提案する。
このゲームは英語、スペイン語、ドイツ語、フランス語、イタリア語に翻訳されている。
抽出したデータセットに対する多言語・多言語感情分析実験を行った。
- 参考スコア(独自算出の注目度): 1.9014535120129343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for extracting a multilingual sentiment annotated dialog
data set from Fallout New Vegas. The game developers have preannotated every
line of dialog in the game in one of the 8 different sentiments: \textit{anger,
disgust, fear, happy, neutral, pained, sad } and \textit{surprised}. The game
has been translated into English, Spanish, German, French and Italian. We
conduct experiments on multilingual, multilabel sentiment analysis on the
extracted data set using multilingual BERT, XLMRoBERTa and language specific
BERT models. In our experiments, multilingual BERT outperformed XLMRoBERTa for
most of the languages, also language specific models were slightly better than
multilingual BERT for most of the languages. The best overall accuracy was 54\%
and it was achieved by using multilingual BERT on Spanish data. The extracted
data set presents a challenging task for sentiment analysis. We have released
the data, including the testing and training splits, openly on Zenodo. The data
set has been shuffled for copyright reasons.
- Abstract(参考訳): 本稿では,Fallout New Vegas から多言語感情注釈付きダイアログデータセットを抽出する手法を提案する。
ゲーム開発者は、ゲーム内のすべてのダイアログを8つの異なる感情の1つ、\textit{anger, disgust, fear, happy, neutral, pained, sad } と \textit{surprised} で事前に注釈付けしている。
ゲームは英語、スペイン語、ドイツ語、フランス語、イタリア語に翻訳されている。
我々は,多言語BERT,XLMRoBERTa,言語固有BERTモデルを用いて,抽出したデータセットに対する多言語・多言語感情分析実験を行った。
実験では,多言語BERTがほとんどの言語でXLMRoBERTaより優れており,言語特化モデルもほとんどの言語でXLMRoBERTaよりも若干優れていた。
全体として最高の精度は54\%であり、スペイン語データに多言語BERTを使用することで達成された。
抽出したデータセットは、感情分析の難しい課題を示す。
テストとトレーニングの分割を含むデータをzenodo上で公開しました。
データセットは著作権上の理由からシャッフルされている。
関連論文リスト
- MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - Multilingual Persuasion Detection: Video Games as an Invaluable Data
Source for NLP [0.6123324869194194]
本稿では,BERTと呼ばれる自然言語処理モデルを用いた説得検出システムの構築において,このデータの有効性を示す。
ビデオゲームは、さまざまなNLPタスクのためのデータソースとして、多くの未使用の可能性を秘めていると考えています。
論文 参考訳(メタデータ) (2022-07-10T12:38:02Z) - What makes multilingual BERT multilingual? [60.9051207862378]
本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。
我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T05:41:56Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - Identifying Necessary Elements for BERT's Multilinguality [4.822598110892846]
マルチリンガルBERT (mBERT) は高品質なマルチリンガル表現を出力し、効率的なゼロショット転送を可能にする。
本研究の目的は,BERTのアーキテクチャ特性と多言語化に必要な言語の言語特性を同定することである。
論文 参考訳(メタデータ) (2020-05-01T14:27:14Z) - The Gutenberg Dialogue Dataset [1.90365714903665]
現在公開されているオープンドメインの対話データセットは、品質とサイズの間のトレードオフを提供する。
英語で14.8Mの発話の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築します。
論文 参考訳(メタデータ) (2020-04-27T12:52:20Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。