論文の概要: VANiLLa : Verbalized Answers in Natural Language at Large Scale
- arxiv url: http://arxiv.org/abs/2105.11407v1
- Date: Mon, 24 May 2021 16:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 17:49:48.497697
- Title: VANiLLa : Verbalized Answers in Natural Language at Large Scale
- Title(参考訳): VANiLLa : 大規模自然言語における動詞解答
- Authors: Debanjali Biswas, Mohnish Dubey, Md Rashad Al Hasan Rony and Jens
Lehmann
- Abstract要約: このデータセットは、CSQAとSimpleQuestionsWikidataデータセットから適応された100万以上の単純な質問で構成されている。
このデータセットの回答文は、三つの事実よりも構文的に、意味的に質問に近い。
- 参考スコア(独自算出の注目度): 2.9098477555578333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the last years, there have been significant developments in the area of
Question Answering over Knowledge Graphs (KGQA). Despite all the notable
advancements, current KGQA datasets only provide the answers as the direct
output result of the formal query, rather than full sentences incorporating
question context. For achieving coherent answers sentence with the question's
vocabulary, template-based verbalization so are usually employed for a better
representation of answers, which in turn require extensive expert intervention.
Thus, making way for machine learning approaches; however, there is a scarcity
of datasets that empower machine learning models in this area. Hence, we
provide the VANiLLa dataset which aims at reducing this gap by offering answers
in natural language sentences. The answer sentences in this dataset are
syntactically and semantically closer to the question than to the triple fact.
Our dataset consists of over 100k simple questions adapted from the CSQA and
SimpleQuestionsWikidata datasets and generated using a semi-automatic
framework. We also present results of training our dataset on multiple baseline
models adapted from current state-of-the-art Natural Language Generation (NLG)
architectures. We believe that this dataset will allow researchers to focus on
finding suitable methodologies and architectures for answer verbalization.
- Abstract(参考訳): 近年,知識グラフに関する質問回答(KGQA)の分野では,大きな進展があった。
すべての顕著な進歩にもかかわらず、現在のKGQAデータセットは、質問コンテキストを組み込んだ全文ではなく、正式なクエリの直接出力結果としてのみ回答を提供する。
コヒーレントな回答文を質問の語彙で達成するためには、テンプレートベースの動詞化は、通常、より優れた回答表現のために使用される。
したがって、機械学習アプローチへの道を開くことはできるが、この分野では機械学習モデルを強化するデータセットが不足している。
したがって、自然言語文の回答を提供することにより、このギャップを減らすことを目的としたVANiLLaデータセットを提供する。
このデータセットの回答文は、3つの事実よりも構文上、意味的に質問に近い。
我々のデータセットは、CSQAとSimpleQuestionsWikidataデータセットから適応された100万以上の簡単な質問で構成され、セミオートマチックなフレームワークを用いて生成される。
また、現在最先端の自然言語生成(NLG)アーキテクチャから適応した複数のベースラインモデルに基づくデータセットのトレーニング結果も提示する。
このデータセットは、研究者が言語化に答えるために適切な方法論やアーキテクチャを見つけることに集中できると考えている。
関連論文リスト
- Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Prompting-based Synthetic Data Generation for Few-Shot Question Answering [23.97949073816028]
大規模言語モデルを用いることで,複数データセットにおける質問応答性能が向上することを示す。
言語モデルには、一般的な事前学習/微調整スキームを超えて使える貴重なタスク非依存の知識が含まれていることを示唆する。
論文 参考訳(メタデータ) (2024-05-15T13:36:43Z) - Pragmatic Evaluation of Clarifying Questions with Fact-Level Masking [21.480602733510256]
質問を明確にするための自然言語実践的質問(PACQ)の定義とフレームワークを提案する。
また、自然言語データセットを自己教師付きPACQデータセットに変換するためのファクトレベルマスキング(FLM)も提案する。
実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して,有用な情報を取得するための質問に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Would You Ask it that Way? Measuring and Improving Question Naturalness
for Knowledge Graph Question Answering [20.779777536841493]
知識グラフ質問応答(KGQA)は、ユーザから正式なクエリ言語専門知識を必要とせず、構造化されたデータを活用することで情報アクセスを容易にする。
我々は,既存のKGQAデータセットから質問を抽出し,自然性の5つの側面について評価することにより,IQN-KGQAテストコレクションを作成する。
より現実的なNL質問の定式化を行うと,いくつかのKGQAシステムはさらに悪化することがわかった。
論文 参考訳(メタデータ) (2022-05-25T13:32:27Z) - ListReader: Extracting List-form Answers for Opinion Questions [18.50111430378249]
ListReaderは、リスト形式の回答のためのニューラルネットワーク抽出QAモデルである。
質問と内容のアライメントの学習に加えて,異種グラフニューラルネットワークを導入する。
提案モデルでは,スパンレベルと文レベルのいずれの回答も抽出可能な抽出設定を採用する。
論文 参考訳(メタデータ) (2021-10-22T10:33:08Z) - PeCoQ: A Dataset for Persian Complex Question Answering over Knowledge
Graph [0.0]
本稿では,ペルシャ語質問応答のためのデータセットである textitPeCoQ を紹介する。
このデータセットには、ペルシャの知識グラフであるFarsBaseから抽出された1万の複雑な質問と回答が含まれている。
データセットには、マルチリレーション、マルチエンタリティ、順序性、時間的制約など、さまざまな種類の複雑さがある。
論文 参考訳(メタデータ) (2021-06-27T08:21:23Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。