論文の概要: Reducing Sequence Length by Predicting Edit Operations with Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.11862v1
- Date: Fri, 19 May 2023 17:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:01:48.571799
- Title: Reducing Sequence Length by Predicting Edit Operations with Large
Language Models
- Title(参考訳): 大規模言語モデルによる編集操作予測によるシーケンス長の削減
- Authors: Masahiro Kaneko, Naoaki Okazaki
- Abstract要約: 本稿では,ローカルシーケンス変換タスクのソースコードに対する編集操作のセットを予測することを提案する。
我々は、ソーステキストと変更トークンで編集操作を表現し、ターゲットシーケンスの長さを削減できる。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 23.13795549279575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance in
various tasks and gained significant attention. LLMs are also used for local
sequence transduction tasks, including grammatical error correction (GEC) and
formality style transfer, where most tokens in a source text are kept
unchanged. However, it is inefficient to generate all target tokens because a
prediction error of a target token may cause a catastrophe in predicting
subsequent tokens and because the computational cost grows quadratically with
the target sequence length. This paper proposes to predict a set of edit
operations for the source text for local sequence transduction tasks.
Representing an edit operation with a span of the source text and changed
tokens, we can reduce the length of the target sequence and thus the
computational cost for inference. We apply instruction tuning for LLMs on the
supervision data of edit operations. Experiments show that the proposed method
achieves comparable performance to the baseline in four tasks, paraphrasing,
formality style transfer, GEC, and text simplification, despite reducing the
length of the target text by as small as 21\%. Furthermore, we report that the
instruction tuning with the proposed method achieved the state-of-the-art
performance in the four tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示しており、大きな注目を集めている。
LLMは、文法的誤り訂正(GEC)や形式的スタイルの転送など、ほとんどのソーステキストのトークンが変更されないような局所的なシーケンス変換タスクにも使用される。
しかし、ターゲットトークンの予測誤差が後のトークンの予測に大惨事を引き起こす可能性があり、計算コストが目標シーケンス長と2乗的に増加するため、すべてのターゲットトークンを生成するのは非効率である。
本稿では,局所シーケンス変換タスクのためのソーステキストの編集操作のセットを予測することを提案する。
ソーステキストと変更トークンのスパンで編集操作を表現することで、ターゲットシーケンスの長さを削減し、推論の計算コストを削減できる。
編集作業の監督データにLLMの命令チューニングを適用する。
提案手法は,対象テキストの長さを21\%小さくしつつも,パラフレージング,形式スタイル転送,gec,テキスト簡易化という4つのタスクにおいて,ベースラインと同等の性能を実現することを示す。
さらに,提案手法による命令チューニングが4つのタスクの最先端性能を達成したことを報告する。
関連論文リスト
- TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers [2.7651063843287718]
TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。
画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。
TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
論文 参考訳(メタデータ) (2024-06-06T18:28:50Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - Structural Self-Supervised Objectives for Transformers [3.018656336329545]
この論文は、教師なし生データを用いて自然言語モデルの事前学習を改善することに焦点を当てている。
第一部では,BERT の Masked Language Modeling (MLM) に対する3つの事前学習目標について紹介する。
第2部では、下流アプリケーションと構造的に整合する自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-09-15T09:30:45Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Don't Take It Literally: An Edit-Invariant Sequence Loss for Text
Generation [109.46348908829697]
生成したn-gramのすべてのn-gramとの一致損失を計算した新しい編集不変シーケンス損失(EISL)を提案する。
ノイズの多いターゲットシーケンスを持つ機械翻訳,教師なしテキストスタイル転送,非自己回帰型機械翻訳の3つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-06-29T03:59:21Z) - Zero-shot Learning by Generating Task-specific Adapters [38.452434222367515]
タスク記述からタスク固有のアダプタを生成するためのハイパーネットワークをトレーニングすることで、ゼロショット転送性を改善するフレームワークであるHypterを紹介する。
この定式化はタスクレベルでの学習を可能にし、軽量アダプタを使用することでパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2021-01-02T10:50:23Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Seq2Edits: Sequence Transduction Using Span-level Edit Operations [10.785577504399077]
Seq2Editsは自然言語処理(NLP)タスクのシーケンス編集のためのオープン語彙のアプローチである。
我々は5つのNLPタスク(テキスト正規化、文融合、文分割と言い換え、テキスト単純化、文法的誤り訂正)における手法を評価する。
文法的誤り訂正では,全列モデルと比較して最大5.2倍の速度で推論を高速化する。
論文 参考訳(メタデータ) (2020-09-23T13:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。