論文の概要: DragonVerseQA: Open-Domain Long-Form Context-Aware Question-Answering
- arxiv url: http://arxiv.org/abs/2412.16694v1
- Date: Sat, 21 Dec 2024 16:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:29.744058
- Title: DragonVerseQA: Open-Domain Long-Form Context-Aware Question-Answering
- Title(参考訳): DragonVerseQA: オープンドメインの長期的コンテキスト対応質問回答
- Authors: Aritra Kumar Lahiri, Qinmin Vivian Hu,
- Abstract要約: 本稿では,オープンドメインとロングフォームなOver-The-Top (OTT) Question-Answering (QA)データセットを開発するための新しいアプローチを提案する。
テレビシリーズ『House of the Dragon』と『Game Of Thrones』のファンタジーの世界に特化している。
我々は、HBOとファンダムウィキのウェブサイトから得られた全エピソード要約、IMDbやRotten Tomatoesなどのソースからのユーザレビュー、高品質でオープンドメインで法的に許容できるソースを組み合わせたデータセットをキュレートする。
- 参考スコア(独自算出の注目度): 2.4063592468412276
- License:
- Abstract: This paper proposes a novel approach to develop an open-domain and long-form Over-The-Top (OTT) Question-Answering (QA) dataset, DragonVerseQA, specifically oriented to the fantasy universe of "House of the Dragon" and "Game Of Thrones" TV series. Most existing QA datasets focus on short, fact-based answers sourced almost solely from Wikipedia articles, devoid of depth and contextual richness for sophisticated narrative understanding. We curate a dataset that combines full episode summaries sourced from HBO and fandom wiki websites, user reviews from sources like IMDb and Rotten Tomatoes, and high-quality, open-domain, legally admissible sources, and structured data from repositories like WikiData into one dataset. The dataset provides a multi-dimensional context, reflecting complex character dynamics and plot developments from these varied sources. That means, on equal footing, only after heavy data preprocessing and filtering methods will meaningful, non-spam unbiased reviews be available in this enriched dataset. The comprehensive insights are given through the long-form answers generated from this enriched context. This is what makes this valuable dataset for improving conversational AI, narrative analysis, sentiment analysis, summarization techniques, and relation extraction. A comparative analysis with state-of-the-art QA datasets such as SQuAD 2.0, TriviaQA, and Natural Questions brings to light the unique advantages of our dataset in terms of contextual complexity and answer length. Detailed reviews add layers to audience sentiment and narrative interpretation, raising the bar for domain-specific QA with a new quality benchmark. Our work also allows a deeper understanding of entertainment-industry content and opens the door to more knowledgeable and creative AI-driven interactions within digital media environments.
- Abstract(参考訳): 本稿では,DragonVerseQA(DragonVerseQA)データセット,特に"House of the Dragon"と"Game Of Thrones"テレビシリーズの空想の世界を対象とする,オープンドメインで長期のOver-The-Top (OTT) 質問応答(QA)データセットを開発するための新しいアプローチを提案する。
既存のQAデータセットのほとんどは、ほとんどウィキペディアの記事から得られた短い事実に基づく回答に焦点を当てており、洗練された物語理解のための深さと文脈の豊かさを欠いている。
我々は,HBOやWikiWebサイトから得られた全エピソード要約,IMDbやRotten Tomatoesなどのソースからのユーザレビュー,高品質でオープンドメイン,合法的に許容可能なソース,WikiDataのようなリポジトリからの構造化データを組み合わせたデータセットをキュレートする。
このデータセットは多次元のコンテキストを提供し、複雑なキャラクタダイナミクスとこれらの様々なソースからのプロット開発を反映している。
つまり、同じ足場で、重いデータ前処理とフィルタリングメソッドが意味のある、非スパムなレビューが、この強化されたデータセットで利用可能になった後だけである。
包括的な洞察は、このリッチなコンテキストから生成される長文の回答を通じて与えられる。
これが、会話AI、物語分析、感情分析、要約技術、関係抽出を改善する上で価値のあるデータセットである。
SQuAD 2.0、TriviaQA、Natural Questionsといった最先端のQAデータセットとの比較分析により、文脈的複雑性と回答長の観点から、私たちのデータセットのユニークな利点が明らかになった。
詳細なレビューは、聴衆の感情と物語の解釈にレイヤを追加し、新しい品質ベンチマークでドメイン固有のQAの基準を上げます。
私たちの研究は、エンターテイメントと産業のコンテンツをより深く理解し、デジタルメディア環境におけるより知識があり創造的なAI駆動インタラクションへの扉を開くことを可能にします。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - On the hidden treasure of dialog in video question answering [18.16094563534453]
外部ソースなしでストーリー全体を理解するための新しいアプローチを提示します。
従来の作業とは異なり、ダイアログをノイズの多いソースとして扱い、テキスト記述に変換する。
我々のモデルは、KnowIT VQAデータセットにおける技術状況よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2021-03-26T15:17:01Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。