Fugu-MT 論文翻訳(概要): WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus

論文の概要: WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus

arxiv url: http://arxiv.org/abs/2304.04358v1
Date: Mon, 10 Apr 2023 02:55:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-11 16:05:52.968007
Title: WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus
Title（参考訳）: webbrain: 大きなwebコーパスに接地して、クェリの事実正しい記事を生成するための学習
Authors: Hongjing Qian, Yutao Zhu, Zhicheng Dou, Haoqi Gu, Xinyu Zhang, Zheng Liu, Ruofei Lai, Zhao Cao, Jian-Yun Nie and Ji-Rong Wen
Abstract要約: 我々は,Web から証拠をマイニングすることで,クエリを参照した短い事実記事を生成する NLP タスクを導入する。最終的なゴールは、ウィキペディアに見当たらない事実検索のための、流動的で情報豊かで、事実的に正しい短い記事を作ることである。我々は、英語のウィキペディア記事とそのクロール可能なウィキペディア参照を抽出し、大規模なデータセットWebBrain-Rawを構築した。
参考スコア（独自算出の注目度）: 61.209202634703104
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce a new NLP task -- generating short factual articles with references for queries by mining supporting evidence from the Web. In this task, called WebBrain, the ultimate goal is to generate a fluent, informative, and factually-correct short article (e.g., a Wikipedia article) for a factual query unseen in Wikipedia. To enable experiments on WebBrain, we construct a large-scale dataset WebBrain-Raw by extracting English Wikipedia articles and their crawlable Wikipedia references. WebBrain-Raw is ten times larger than the previous biggest peer dataset, which can greatly benefit the research community. From WebBrain-Raw, we construct two task-specific datasets: WebBrain-R and WebBrain-G, which are used to train in-domain retriever and generator, respectively. Besides, we empirically analyze the performances of the current state-of-the-art NLP techniques on WebBrain and introduce a new framework ReGen, which enhances the generation factualness by improved evidence retrieval and task-specific pre-training for generation. Experiment results show that ReGen outperforms all baselines in both automatic and human evaluations.
Abstract（参考訳）: 本稿では,Web から証拠をマイニングすることで,クエリを参照した短い事実記事を生成する NLP タスクを提案する。 WebBrainと呼ばれるこのタスクでは、最終的なゴールは、ウィキペディアに見当たらない事実クエリに対して、流動的で情報的かつ事実的に正しい短い記事(例えばウィキペディアの記事)を作成することである。 webbrainの実験を可能にするために、英語wikipediaの記事とそのクローラ可能なwikipedia参照を抽出し、大規模データセットwebbrain-rawを構築する。 webbrain-rawは、以前の最大のピアデータセットの10倍の大きさで、研究コミュニティに大きなメリットがある。 WebBrain-RawからWebBrain-RとWebBrain-Gという2つのタスク固有のデータセットを構築し、それぞれドメイン内検索とジェネレータをトレーニングする。また、webbrainにおける現在の最先端nlp技術の性能を実証的に分析し、エビデンス検索の改善と生成のためのタスク固有の事前学習により、生成事実性を高める新しいフレームワークregenを導入する。実験の結果、ReGenは自動評価と人的評価の両方において、すべてのベースラインを上回ります。

関連論文リスト

Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction [83.0216122783429]
Web Restruction(WebR)は、Webドキュメントから直接高品質な命令チューニング(IT)データを合成するための、完全に自動化されたフレームワークである。 WebRが生成したデータセットは、4つのインストラクションフォローベンチマークで、最先端のベースラインを最大16.65%上回ります。
論文参考訳（メタデータ） (2025-04-22T04:07:13Z)
CorpusBrain++: A Continual Generative Pre-Training Framework for Knowledge-Intensive Language Tasks [111.13988772503511]
知識集約型言語タスク(KILT)は通常、特定の回答を生成するために、信頼できるコーパス(例えばウィキペディア)から関連文書を取得する必要がある。近年,コーパスブライン(CorpsBrain)と呼ばれるKILTの事前学習型生成検索モデルが提案され,新しい最先端検索性能に到達した。
論文参考訳（メタデータ） (2024-02-26T17:35:44Z)
Cleaner Pretraining Corpus Curation with Neural Web Scraping [39.97459187762505]
本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。実験結果から,NeuScraperは20%以上の改善を達成し,ベースラインスクラップラーを上回ることがわかった。
論文参考訳（メタデータ） (2024-02-22T16:04:03Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文参考訳（メタデータ） (2023-05-18T14:20:32Z)
PLM-GNN: A Webpage Classification Method based on Joint Pre-trained Language Model and Graph Neural Network [19.75890828376791]
PLM-GNN という名前の事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法を提案する。 Web ページにおけるテキストと HTML DOM ツリーの同時符号化に基づいており,KI-04 と SWDE のデータセットと,学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。
論文参考訳（メタデータ） (2023-05-09T12:19:10Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
CorpusBrain: Pre-train a Generative Retrieval Model for Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文参考訳（メタデータ） (2022-08-16T10:22:49Z)
A Transformer-based Neural Language Model that Synthesizes Brain Activation Maps from Free-Form Text Queries [37.322245313730654]
Text2Brainは、オープンエンドテキストクエリから脳活性化マップを合成するための使いやすいツールである。 Text2Brainは、トランスフォーマーベースのニューラルネットワーク言語モデルと、ニューロイメージング研究の座標ベースのメタ分析に基づいて構築された。
論文参考訳（メタデータ） (2022-07-24T09:15:03Z)
BrainGB: A Benchmark for Brain Network Analysis with Graph Neural Networks [20.07976837999997]
グラフニューラルネットワーク(GNN)を用いた脳ネットワーク解析のためのベンチマークであるBrainGBを提案する。 BrainGBは脳ネットワーク構築パイプラインを機能的および構造的ニューロイメージングの両方に標準化する。脳ネットワーク上での効果的なGNN設計のための一般的なレシピセットを推奨する。
論文参考訳（メタデータ） (2022-03-17T08:31:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。