論文の概要: Multilingual Persuasion Detection: Video Games as an Invaluable Data
Source for NLP
- arxiv url: http://arxiv.org/abs/2207.04453v1
- Date: Sun, 10 Jul 2022 12:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:32:33.625408
- Title: Multilingual Persuasion Detection: Video Games as an Invaluable Data
Source for NLP
- Title(参考訳): 多言語説得検出:NLPのための貴重なデータソースとしてのビデオゲーム
- Authors: Teemu P\"oyh\"onen, Mika H\"am\"al\"ainen, Khalid Alnajjar
- Abstract要約: 本稿では,BERTと呼ばれる自然言語処理モデルを用いた説得検出システムの構築において,このデータの有効性を示す。
ビデオゲームは、さまざまなNLPタスクのためのデータソースとして、多くの未使用の可能性を秘めていると考えています。
- 参考スコア(独自算出の注目度): 0.6123324869194194
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Role-playing games (RPGs) have a considerable amount of text in video game
dialogues. Quite often this text is semi-annotated by the game developers. In
this paper, we extract a multilingual dataset of persuasive dialogue from
several RPGs. We show the viability of this data in building a persuasion
detection system using a natural language processing (NLP) model called BERT.
We believe that video games have a lot of unused potential as a datasource for
a variety of NLP tasks. The code and data described in this paper are available
on Zenodo.
- Abstract(参考訳): ロールプレイングゲーム(RPG)は、ビデオゲームの対話においてかなりの量のテキストを持っている。
このテキストはゲーム開発者によってセミアノテートされることが多い。
本稿では,複数のrpgから説得対話の多言語データセットを抽出する。
BERTと呼ばれる自然言語処理(NLP)モデルを用いた説得検出システムの構築において,このデータの有効性を示す。
ビデオゲームは、さまざまなNLPタスクのためのデータソースとして、多くの未使用の可能性を秘めていると考えています。
この論文で記述されたコードとデータはzenodoで利用可能である。
関連論文リスト
- TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming [21.88026116276415]
テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
論文 参考訳(メタデータ) (2024-02-15T09:18:18Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured
Game State Information [75.201485544517]
本研究では,Discord上の実D&Dゲームプレイから25,000近いセッションを,真のゲーム状態情報とともに格納した大規模データセットFIREBALLを提案する。
我々は,FIREBALLがAvrae状態情報を用いて自然言語生成(NLG)を改善することを実証した。
論文 参考訳(メタデータ) (2023-05-02T15:36:10Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Video Games as a Corpus: Sentiment Analysis using Fallout New Vegas
Dialog [1.9014535120129343]
本稿では,Fallout New Vegas から多言語感情注釈付きダイアログデータセットを抽出する手法を提案する。
このゲームは英語、スペイン語、ドイツ語、フランス語、イタリア語に翻訳されている。
抽出したデータセットに対する多言語・多言語感情分析実験を行った。
論文 参考訳(メタデータ) (2022-12-05T11:09:05Z) - A Snapshot into the Possibility of Video Game Machine Translation [0.0]
本稿では,ゲーム翻訳の課題,既存の文献,システムやデータセットについて紹介する。
このような発見は、典型的なルールとパターンを英語からフランス語に翻訳するモデルの能力を強調している。
論文 参考訳(メタデータ) (2022-09-19T08:16:59Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z) - The Gutenberg Dialogue Dataset [1.90365714903665]
現在公開されているオープンドメインの対話データセットは、品質とサイズの間のトレードオフを提供する。
英語で14.8Mの発話の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築します。
論文 参考訳(メタデータ) (2020-04-27T12:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。