論文の概要: Time-aware Prompting for Text Generation
- arxiv url: http://arxiv.org/abs/2211.02162v1
- Date: Thu, 3 Nov 2022 22:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:36:04.267200
- Title: Time-aware Prompting for Text Generation
- Title(参考訳): テキスト生成のための時間認識プロンプト
- Authors: Shuyang Cao and Lu Wang
- Abstract要約: 文書作成日時などのタイムスタンプを世代システムに組み込む効果について検討する。
1) 自然言語文中の文書のタイムスタンプをエンコードするテキストプロンプト,(2) タイムスタンプを連続ベクトルに変換する線形プロンプト。
- 参考スコア(独自算出の注目度): 17.58231642569116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the effects of incorporating timestamps, such as
document creation dates, into generation systems. Two types of time-aware
prompts are investigated: (1) textual prompts that encode document timestamps
in natural language sentences; and (2) linear prompts that convert timestamps
into continuous vectors. To explore extrapolation to future data points, we
further introduce a new data-to-text generation dataset, TempWikiBio,
containing more than 4 millions of chronologically ordered revisions of
biographical articles from English Wikipedia, each paired with structured
personal profiles. Through data-to-text generation on TempWikiBio, text-to-text
generation on the content transfer dataset, and summarization on XSum, we show
that linear prompts on encoder and textual prompts improve the generation
quality on all datasets. Despite having less performance drop when testing on
data drawn from a later time, linear prompts focus more on non-temporal
information and are less sensitive to the given timestamps, according to human
evaluations and sensitivity analyses. Meanwhile, textual prompts establish the
association between the given timestamps and the output dates, yielding more
factual temporal information in the output.
- Abstract(参考訳): 本稿では,文書作成日時などのタイムスタンプを生成システムに組み込む効果について検討する。
1) 文書のタイムスタンプを自然言語文にエンコードするテキストプロンプト, (2) タイムスタンプを連続ベクトルに変換する線形プロンプトの2種類の時間認識プロンプトについて検討した。
将来的なデータポイントへの補間を検討するために、さらに、構造化された個人プロファイルとペアリングされた英語ウィキペディアの伝記記事の400万以上の時系列順の修正を含む、新しいデータ対テキスト生成データセットtempwikibioを紹介する。
tempwikibio上でのデータからテキストへの生成、コンテンツ転送データセット上でテキストからテキストへの生成、xsum上での要約を通じて、エンコーダとテキストによるリニアプロンプトにより、すべてのデータセットにおける生成品質が向上することを示す。
後から引き出されたデータをテストする際のパフォーマンス低下は少ないが、線形的なプロンプトは非時間的情報に集中し、人間の評価や感度分析によると、与えられたタイムスタンプに敏感でない。
一方、テキストプロンプトは与えられたタイムスタンプと出力日との関係を確立し、出力においてより現実的な時間情報を生成する。
関連論文リスト
- Domain-Independent Automatic Generation of Descriptive Texts for Time-Series Data [5.264562311559751]
時系列データからドメインに依存しない記述テキストを生成する手法を提案する。
新たな後方アプローチを実装することで、観測データセットのための時間自動キャプションを作成する。
実験の結果,TACOデータセットを用いて学習した対照的な学習ベースモデルでは,新しいドメインにおける時系列データのための記述テキストを生成することができることがわかった。
論文 参考訳(メタデータ) (2024-09-25T06:04:03Z) - Evolving Text Data Stream Mining [2.28438857884398]
このような大量のテキストデータは、毎日オンラインソーシャルプラットフォームによって生成される。
限られた時間とメモリの制約の下で,このようなストリーミングデータから有用な情報を学ぶことが注目されている。
テキストストリーム上でのクラスタリングとマルチラベル学習のための新しい学習モデルを提案する。
論文 参考訳(メタデータ) (2024-08-15T15:38:52Z) - Attribute First, then Generate: Locally-attributable Grounded Text Generation [33.371400233333326]
本稿では,簡潔な属性を優先する局所帰属型テキスト生成手法を提案する。
Attribute First, then Generate"と名付けられたこの手法は,従来のエンドツーエンド生成プロセスを3つの直感的なステップに分解する。
論文 参考訳(メタデータ) (2024-03-25T18:41:47Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Sequentially Controlled Text Generation [97.22539956688443]
GPT-2は、驚くほど人間らしく、長い文書が混ざり合ったり、人間のような文章構造に従わなかったりする文を生成する。
本研究では,長距離テキストにおける命令構造の問題について検討する。
生成と編集が可能な逐次制御型テキスト生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-01-05T21:23:51Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Text Editing by Command [82.50904226312451]
ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。
この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。
このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-24T08:00:30Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Efficient text generation of user-defined topic using generative
adversarial networks [0.32228025627337864]
本稿では,この問題を解決するために,2レベル判別器を用いたユーザ定義型GAN(UD-GAN)を提案する。
提案手法は,他の方法よりも少ない時間でテキストを生成することができる。
論文 参考訳(メタデータ) (2020-06-22T04:49:47Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。