論文の概要: Generating Full Length Wikipedia Biographies: The Impact of Gender Bias
on the Retrieval-Based Generation of Women Biographies
- arxiv url: http://arxiv.org/abs/2204.05879v1
- Date: Tue, 12 Apr 2022 15:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:45:39.003937
- Title: Generating Full Length Wikipedia Biographies: The Impact of Gender Bias
on the Retrieval-Based Generation of Women Biographies
- Title(参考訳): ウィキペディア全長伝記の作成:女性伝記の検索に基づく生成におけるジェンダーバイアスの影響
- Authors: Angela Fan, Claire Gardent
- Abstract要約: 本研究では,Web上の関連情報を特定するための検索機構を用いた英語テキストのモデルを開発する。
キャッシュベースの事前学習エンコーダデコーダを用いて、引用情報を含む長文の伝記部を生成する。
生成したテキストを分析し、利用可能なWebエビデンスデータの相違が生成に与える影響を理解する。
- 参考スコア(独自算出の注目度): 22.842874899794996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating factual, long-form text such as Wikipedia articles raises three
key challenges: how to gather relevant evidence, how to structure information
into well-formed text, and how to ensure that the generated text is factually
correct. We address these by developing a model for English text that uses a
retrieval mechanism to identify relevant supporting information on the web and
a cache-based pre-trained encoder-decoder to generate long-form biographies
section by section, including citation information. To assess the impact of
available web evidence on the output text, we compare the performance of our
approach when generating biographies about women (for which less information is
available on the web) vs. biographies generally. To this end, we curate a
dataset of 1,500 biographies about women. We analyze our generated text to
understand how differences in available web evidence data affect generation. We
evaluate the factuality, fluency, and quality of the generated texts using
automatic metrics and human evaluation. We hope that these techniques can be
used as a starting point for human writers, to aid in reducing the complexity
inherent in the creation of long-form, factual text.
- Abstract(参考訳): wikipediaの記事のような、事実的で長文のテキストを生成することは、3つの重要な課題を提起する: 関連する証拠の収集方法、情報の構造化方法、そして生成されたテキストが事実的に正しいことを保証する方法。
本稿では,Web上の関連情報を特定するための検索機構と,キャッシュベースの事前学習エンコーダデコーダを用いて,引用情報を含む長文のバイオグラフィーセクションを生成することで,これらに対処する。
得られたWebエビデンスが出力テキストに与える影響を評価するため,女性に関する伝記(ウェブ上での情報が少ない)を作成する際のアプローチと,一般的にはバイオグラフィの比較を行った。
この目的のために、女性に関する1500の伝記のデータセットをキュレートする。
生成したテキストを分析し、利用可能なWebエビデンスデータの差が生成に与える影響を理解する。
自動測定と人格評価を用いて,生成したテキストの事実性,流動性,品質を評価する。
これらの技術が人間の作家の出発点として利用され、長文、事実文の作成に固有の複雑さを軽減できることを願っている。
関連論文リスト
- Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models [11.597314728459573]
我々は、大きな言語モデルを用いて、ウィキペディアのページに匹敵する幅と深さの長い記事をスクラッチから書く方法を研究した。
本稿では,検索と複数パースペクティブ質問応答によるトピックアウトライン生成のための記述システムSTORMを提案する。
論文 参考訳(メタデータ) (2024-02-22T01:20:17Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Time-aware Prompting for Text Generation [17.58231642569116]
文書作成日時などのタイムスタンプを世代システムに組み込む効果について検討する。
1) 自然言語文中の文書のタイムスタンプをエンコードするテキストプロンプト,(2) タイムスタンプを連続ベクトルに変換する線形プロンプト。
論文 参考訳(メタデータ) (2022-11-03T22:10:25Z) - Cloning Ideology and Style using Deep Learning [0.0]
研究は、特定の著者のイデオロギーとスタイルに基づくテキスト生成と、過去に同じ著者が書いたものではないトピックに関するテキスト生成に焦点を当てている。
Bi-LSTMモデルを用いて文字レベルでの予測を行う。
事前学習モデルを用いて、著者のコーパスと矛盾する真実の文を識別し、言語モデルを傾斜させる。
論文 参考訳(メタデータ) (2022-10-25T11:37:19Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Unsupervised Neural Stylistic Text Generation using Transfer learning
and Adapters [66.17039929803933]
応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3%しか更新しない新しい転送学習フレームワークを提案する。
我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。
論文 参考訳(メタデータ) (2022-10-07T00:09:22Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。