論文の概要: WebBrain: Learning to Generate Factually Correct Articles for Queries by
Grounding on Large Web Corpus
- arxiv url: http://arxiv.org/abs/2304.04358v1
- Date: Mon, 10 Apr 2023 02:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:05:52.968007
- Title: WebBrain: Learning to Generate Factually Correct Articles for Queries by
Grounding on Large Web Corpus
- Title(参考訳): webbrain: 大きなwebコーパスに接地して、クェリの事実正しい記事を生成するための学習
- Authors: Hongjing Qian, Yutao Zhu, Zhicheng Dou, Haoqi Gu, Xinyu Zhang, Zheng
Liu, Ruofei Lai, Zhao Cao, Jian-Yun Nie and Ji-Rong Wen
- Abstract要約: 我々は,Web から証拠をマイニングすることで,クエリを参照した短い事実記事を生成する NLP タスクを導入する。
最終的なゴールは、ウィキペディアに見当たらない事実検索のための、流動的で情報豊かで、事実的に正しい短い記事を作ることである。
我々は、英語のウィキペディア記事とそのクロール可能なウィキペディア参照を抽出し、大規模なデータセットWebBrain-Rawを構築した。
- 参考スコア(独自算出の注目度): 61.209202634703104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a new NLP task -- generating short factual
articles with references for queries by mining supporting evidence from the
Web. In this task, called WebBrain, the ultimate goal is to generate a fluent,
informative, and factually-correct short article (e.g., a Wikipedia article)
for a factual query unseen in Wikipedia. To enable experiments on WebBrain, we
construct a large-scale dataset WebBrain-Raw by extracting English Wikipedia
articles and their crawlable Wikipedia references. WebBrain-Raw is ten times
larger than the previous biggest peer dataset, which can greatly benefit the
research community. From WebBrain-Raw, we construct two task-specific datasets:
WebBrain-R and WebBrain-G, which are used to train in-domain retriever and
generator, respectively. Besides, we empirically analyze the performances of
the current state-of-the-art NLP techniques on WebBrain and introduce a new
framework ReGen, which enhances the generation factualness by improved evidence
retrieval and task-specific pre-training for generation. Experiment results
show that ReGen outperforms all baselines in both automatic and human
evaluations.
- Abstract(参考訳): 本稿では,Web から証拠をマイニングすることで,クエリを参照した短い事実記事を生成する NLP タスクを提案する。
WebBrainと呼ばれるこのタスクでは、最終的なゴールは、ウィキペディアに見当たらない事実クエリに対して、流動的で情報的かつ事実的に正しい短い記事(例えばウィキペディアの記事)を作成することである。
webbrainの実験を可能にするために、英語wikipediaの記事とそのクローラ可能なwikipedia参照を抽出し、大規模データセットwebbrain-rawを構築する。
webbrain-rawは、以前の最大のピアデータセットの10倍の大きさで、研究コミュニティに大きなメリットがある。
WebBrain-RawからWebBrain-RとWebBrain-Gという2つのタスク固有のデータセットを構築し、それぞれドメイン内検索とジェネレータをトレーニングする。
また、webbrainにおける現在の最先端nlp技術の性能を実証的に分析し、エビデンス検索の改善と生成のためのタスク固有の事前学習により、生成事実性を高める新しいフレームワークregenを導入する。
実験の結果、ReGenは自動評価と人的評価の両方において、すべてのベースラインを上回ります。
関連論文リスト
- CorpusBrain++: A Continual Generative Pre-Training Framework for
Knowledge-Intensive Language Tasks [111.13988772503511]
知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。
近年,コーパスブライン(CorpsBrain)と呼ばれるKILTの事前学習型生成検索モデルが提案され,新しい最先端検索性能に到達した。
論文 参考訳(メタデータ) (2024-02-26T17:35:44Z) - Cleaner Pretraining Corpus Curation with Neural Web Scraping [39.97459187762505]
本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。
実験結果から,NeuScraperは20%以上の改善を達成し,ベースラインスクラップラーを上回ることがわかった。
論文 参考訳(メタデータ) (2024-02-22T16:04:03Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - PLM-GNN: A Webpage Classification Method based on Joint Pre-trained
Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。
Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文 参考訳(メタデータ) (2023-05-09T12:19:10Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - A Transformer-based Neural Language Model that Synthesizes Brain
Activation Maps from Free-Form Text Queries [37.322245313730654]
Text2Brainは、オープンエンドテキストクエリから脳活性化マップを合成するための使いやすいツールである。
Text2Brainは、トランスフォーマーベースのニューラルネットワーク言語モデルと、ニューロイメージング研究の座標ベースのメタ分析に基づいて構築された。
論文 参考訳(メタデータ) (2022-07-24T09:15:03Z) - BrainGB: A Benchmark for Brain Network Analysis with Graph Neural
Networks [20.07976837999997]
グラフニューラルネットワーク(GNN)を用いた脳ネットワーク解析のためのベンチマークであるBrainGBを提案する。
BrainGBは脳ネットワーク構築パイプラインを機能的および構造的ニューロイメージングの両方に標準化する。
脳ネットワーク上での効果的なGNN設計のための一般的なレシピセットを推奨する。
論文 参考訳(メタデータ) (2022-03-17T08:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。