論文の概要: Reducing Sequence Length by Predicting Edit Operations with Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.11862v2
- Date: Sat, 21 Oct 2023 00:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 12:12:45.030061
- Title: Reducing Sequence Length by Predicting Edit Operations with Large
Language Models
- Title(参考訳): 大規模言語モデルによる編集操作予測によるシーケンス長の削減
- Authors: Masahiro Kaneko, Naoaki Okazaki
- Abstract要約: 本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
- 参考スコア(独自算出の注目度): 50.66922361766939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance in
various tasks and gained significant attention. LLMs are also used for local
sequence transduction tasks, including grammatical error correction (GEC) and
formality style transfer, where most tokens in a source text are kept
unchanged. However, the models that generate all target tokens in such tasks
have a tendency to simply copy the input text as is, without making needed
changes, because the difference between input and output texts is minimal in
the training data. This is also inefficient because the computational cost
grows quadratically with the target sequence length with Transformer. This
paper proposes predicting edit spans for the source text for local sequence
transduction tasks. Representing an edit span with a position of the source
text and corrected tokens, we can reduce the length of the target sequence and
the computational cost for inference. We apply instruction tuning for LLMs on
the supervision data of edit spans. Experiments show that the proposed method
achieves comparable performance to the baseline in four tasks, paraphrasing,
formality style transfer, GEC, and text simplification, despite reducing the
length of the target text by as small as 21%. Furthermore, we report that the
task-specific fine-tuning with the proposed method achieved state-of-the-art
performance in the four tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクにおいて顕著な性能を示しており、大きな注目を集めている。
LLMは、文法的誤り訂正(GEC)や形式的スタイルの転送など、ほとんどのソーステキストのトークンが変更されないような局所的なシーケンス変換タスクにも使用される。
しかし、そのようなタスクで全てのターゲットトークンを生成するモデルは、入力テキストと出力テキストの違いがトレーニングデータに最小限であるため、必要な変更を加えることなく、入力テキストをそのままコピーする傾向にある。
計算コストは、Transformerでターゲットシーケンスの長さと2倍に増加するため、これは非効率である。
本稿では,ローカルシーケンス変換タスクのソーステキストに対する編集スパンの予測を提案する。
ソーステキストの位置と訂正されたトークンで編集スパンを表現することで、ターゲットシーケンスの長さと推論の計算コストを削減できる。
編集スパンの監督データにLLMの命令チューニングを適用する。
提案手法は,対象テキストの長さを最大21%削減しつつも,パラフレージング,形式スタイル転送,gec,テキスト簡易化という4つのタスクにおいて,ベースラインと同等の性能を実現することを示す。
さらに,提案手法によるタスク固有の微調整が4つのタスクにおいて最先端の性能を達成したことを報告する。
関連論文リスト
- TexIm FAST: Text-to-Image Representation for Semantic Similarity Evaluation using Transformers [2.7651063843287718]
TexIm FASTは、トランスフォーマー(TexIm FAST)を用いた意味評価のための自己教師付き変分自動エンコーダ(VAE)による固定長表現を生成する新しい手法である。
画像表現は、言語的な複雑さを維持しながら、暗黙の推論を可能にし、クロスモーダルな応用において強力である。
TexIm FASTの有効性は、MSRPC、CNN/Daily Mail、XSumデータセット上でのセマンティックテキスト類似性(STS)のタスクに対して広く分析されている。
論文 参考訳(メタデータ) (2024-06-06T18:28:50Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - Structural Self-Supervised Objectives for Transformers [3.018656336329545]
この論文は、教師なし生データを用いて自然言語モデルの事前学習を改善することに焦点を当てている。
第一部では,BERT の Masked Language Modeling (MLM) に対する3つの事前学習目標について紹介する。
第2部では、下流アプリケーションと構造的に整合する自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-09-15T09:30:45Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Don't Take It Literally: An Edit-Invariant Sequence Loss for Text
Generation [109.46348908829697]
生成したn-gramのすべてのn-gramとの一致損失を計算した新しい編集不変シーケンス損失(EISL)を提案する。
ノイズの多いターゲットシーケンスを持つ機械翻訳,教師なしテキストスタイル転送,非自己回帰型機械翻訳の3つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2021-06-29T03:59:21Z) - Zero-shot Learning by Generating Task-specific Adapters [38.452434222367515]
タスク記述からタスク固有のアダプタを生成するためのハイパーネットワークをトレーニングすることで、ゼロショット転送性を改善するフレームワークであるHypterを紹介する。
この定式化はタスクレベルでの学習を可能にし、軽量アダプタを使用することでパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2021-01-02T10:50:23Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Seq2Edits: Sequence Transduction Using Span-level Edit Operations [10.785577504399077]
Seq2Editsは自然言語処理(NLP)タスクのシーケンス編集のためのオープン語彙のアプローチである。
我々は5つのNLPタスク(テキスト正規化、文融合、文分割と言い換え、テキスト単純化、文法的誤り訂正)における手法を評価する。
文法的誤り訂正では,全列モデルと比較して最大5.2倍の速度で推論を高速化する。
論文 参考訳(メタデータ) (2020-09-23T13:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。