論文の概要: Copy Is All You Need
- arxiv url: http://arxiv.org/abs/2307.06962v1
- Date: Thu, 13 Jul 2023 05:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 16:12:17.521400
- Title: Copy Is All You Need
- Title(参考訳): コピーは必要なだけ
- Authors: Tian Lan, Deng Cai, Yan Wang, Heyan Huang, Xian-Ling Mao
- Abstract要約: 既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 66.00852205068327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominant text generation models compose the output by sequentially
selecting words from a fixed vocabulary. In this paper, we formulate text
generation as progressively copying text segments (e.g., words or phrases) from
an existing text collection. We compute the contextualized representations of
meaningful text segments and index them using efficient vector search toolkits.
The task of text generation is then decomposed into a series of copy-and-paste
operations: at each time step, we seek suitable text spans from the text
collection rather than selecting from a standalone vocabulary. Experiments on
the standard language modeling benchmark (WikiText-103) show that our approach
achieves better generation quality according to both automatic and human
evaluations. Besides, its inference efficiency is comparable to token-level
autoregressive models thanks to the reduction of decoding steps. We also show
that our approach allows for effective domain adaptation by simply switching to
domain-specific text collection without extra training. Finally, we observe
that our approach attains additional performance gains by simply scaling up to
larger text collections, again without further training.\footnote{Our source
codes are publicly available at
\url{https://github.com/gmftbyGMFTBY/Copyisallyouneed}.}
- Abstract(参考訳): 支配的なテキスト生成モデルは、固定語彙から順次選択して出力を構成する。
本稿では、既存のテキストコレクションからテキストセグメント(例えば、単語やフレーズ)を段階的にコピーするテキスト生成を定式化する。
意味のあるテキストセグメントの文脈化表現を計算し,効率的なベクトル探索ツールキットを用いてインデックス化する。
テキスト生成のタスクは一連のコピー&ペースト操作に分解されます: 各ステップでは、独立した語彙から選択するのではなく、テキストコレクションから適切なテキストスパンを求めます。
標準言語モデリングベンチマーク(WikiText-103)の実験結果から,本手法は自動評価と人的評価の両方で,より優れた生成品質を実現することが示された。
さらに、その推論効率はデコードステップの削減によってトークンレベルの自己回帰モデルに匹敵する。
また,本手法は,余分なトレーニングを伴わずに,ドメイン固有のテキストコレクションに切り替えることによって,効果的なドメイン適応を可能にすることを示す。
最後に、我々のアプローチが、さらなるトレーニングなしで、単により大きなテキストコレクションにスケールアップすることで、さらなるパフォーマンス向上を達成することを確認しました。
ソースコードは \url{https://github.com/gmftbyGMFTBY/Copyisallyouneed} で公開されている。
}
関連論文リスト
- Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Towards Unified Scene Text Spotting based on Sequence Generation [4.437335677401287]
UNIfied scene Text Spotter(UNITS)を提案する。
我々のモデルは四角形や多角形を含む様々な検出形式を統一する。
任意の開始点からテキストを抽出するために、開始点プロンプトを適用する。
論文 参考訳(メタデータ) (2023-04-07T01:28:08Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Language modeling via stochastic processes [30.796382023812022]
現代の言語モデルは高品質の短いテキストを生成することができるが、長いテキストを生成するときにはしばしばメランジェや不整合である。
自己教師付き学習における最近の研究は、モデルが対照的な学習を通して優れた潜在表現を学習できることを示唆している。
本稿では,時間制御と呼ばれる構成表現を活用する方法を提案する。
論文 参考訳(メタデータ) (2022-03-21T22:13:53Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。