論文の概要: Synthesis and Evaluation of a Domain-specific Large Data Set for
Dungeons & Dragons
- arxiv url: http://arxiv.org/abs/2212.09080v1
- Date: Sun, 18 Dec 2022 12:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:01:24.502576
- Title: Synthesis and Evaluation of a Domain-specific Large Data Set for
Dungeons & Dragons
- Title(参考訳): ダンジョン&ドラゴンのためのドメイン固有の大規模データセットの合成と評価
- Authors: Akila Peiris, Nisansa de Silva
- Abstract要約: Forgotten RealmsはDungeons & Dragonsのデファクトのデフォルト設定である。
データセットはForgotten Realms Fandom wikiから45,200以上の記事から抽出された。
これはDungeons & Dragonsドメインにとって、このサイズの最初のデータセットである。
- 参考スコア(独自算出の注目度): 0.554780083433538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the Forgotten Realms Wiki (FRW) data set and domain
specific natural language generation using FRW along with related analyses.
Forgotten Realms is the de-facto default setting of the popular open ended
tabletop fantasy role playing game, Dungeons & Dragons. The data set was
extracted from the Forgotten Realms Fandom wiki consisting of more than over
45,200 articles. The FRW data set is constituted of 11 sub-data sets in a
number of formats: raw plain text, plain text annotated by article title,
directed link graphs, wiki info-boxes annotated by the wiki article title,
Poincar\'e embedding of first link graph, multiple Word2Vec and Doc2Vec models
of the corpus. This is the first data set of this size for the Dungeons &
Dragons domain. We then present a pairwise similarity comparison benchmark
which utilizes similarity measures. In addition, we perform D&D domain specific
natural language generation using the corpus and evaluate the named entity
classification with respect to the lore of Forgotten Realms.
- Abstract(参考訳): 本稿では,FRW を用いた Forgotten Realms Wiki (FRW) データセットとドメイン固有自然言語生成について,関連する分析とともに紹介する。
forgotten realmsは、人気のオープンエンドテーブルトップファンタジーロールプレイングゲーム、dungeons & dragonsのデファクト設定である。
データセットは、45,200以上の記事からなるthe forgotten realms fandom wikiから抽出された。
FRWデータセットは、原文、記事タイトルで注釈付けされたプレーンテキスト、指示リンクグラフ、wiki記事タイトルで注釈付けされたwikiインフォメーションボックス、最初のリンクグラフのPoincar\'e埋め込み、コーパスの複数Word2VecおよびDoc2Vecモデルなど、11のサブデータセットで構成されている。
これはDungeons & Dragonsドメインにとって、このサイズの最初のデータセットである。
次に類似度尺度を用いたペアワイズ類似度比較ベンチマークを示す。
さらに、コーパスを用いてD&Dドメイン固有の自然言語生成を行い、Forgotten Realmsの伝承に関する名前付きエンティティ分類を評価する。
関連論文リスト
- Fine Tuning Named Entity Extraction Models for the Fantasy Domain [0.3108011671896571]
この作業では、D&Dドメインで利用可能なモンスターのロアを使用して、多作なNERフレームワークであるTrankitを微調整する。
システムは、新しいNERタグの下で、関連するドメイン文書からモンスター名を抽出する機能を取得する。
論文 参考訳(メタデータ) (2024-02-16T13:11:13Z) - UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity [50.91030850662369]
既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。
これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。
我々は,超微細な人物検索のためにtextbfUFineBench という新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2023-12-06T11:50:14Z) - Detecting Spells in Fantasy Literature with a Transformer Based
Artificial Intelligence [69.85273194899884]
小説『ハリー・ポッター』シリーズにおける呪文の文脈に基づく認識にBERTを用いている。
事前トレーニングされたBERTモデルを使用して、検索されたコンテキストを識別するために、異なるデータセットとトレーニング方法を微調整した。
論文 参考訳(メタデータ) (2023-08-07T15:20:20Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Automatic Discovery of Novel Intents & Domains from Text Utterances [18.39942131996558]
本稿では,ラベルのない大量のデータから新しいドメインや意図を自動的に発見する新しいフレームワークADVINを提案する。
ADVINは3つのベンチマークデータセットのベースラインと、商用音声処理エージェントからの実際のユーザ発話を大きく上回る。
論文 参考訳(メタデータ) (2020-05-22T00:47:10Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z) - GameWikiSum: a Novel Large Multi-Document Summarization Dataset [39.38032088973816]
GameWikiSumは、マルチドキュメント要約のための新しいドメイン固有のデータセットである。
一般的に使用されるデータセットの100倍の大きさであり、ニュースよりも別の領域にある。
提案したデータセットを分析し,抽象モデルと抽出モデルの両方をトレーニング可能であることを示す。
論文 参考訳(メタデータ) (2020-02-17T09:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。