論文の概要: BioCopy: A Plug-And-Play Span Copy Mechanism in Seq2Seq Models
- arxiv url: http://arxiv.org/abs/2109.12533v1
- Date: Sun, 26 Sep 2021 08:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 16:03:09.068259
- Title: BioCopy: A Plug-And-Play Span Copy Mechanism in Seq2Seq Models
- Title(参考訳): BioCopy:Seq2Seqモデルにおけるプラグアンドプレイスパンコピー機構
- Authors: Yi Liu, Guoan Zhang, Puning Yu, Jianlin Su, Shengfeng Pan
- Abstract要約: 本稿では,長いスパンをコピーしながら重要なトークンを紛失する問題を軽減するために,BioCopyというプラグイン・アンド・プレイアーキテクチャを提案する。
具体的には、トレーニング段階において、トークン毎にBIOタグを構築し、BIOタグを併用してオリジナルのモデルをトレーニングする。
推測段階では、モデルはまず各タイミングでBIOタグを予測し、予測されたBIOラベルに基づいて異なるマスク戦略を実行する。
2つの別個の生成タスクの実験結果から,BioCopyを元のモデル構造に加えることで,ベースラインモデルよりも優れることが示された。
- 参考スコア(独自算出の注目度): 3.823919891699282
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Copy mechanisms explicitly obtain unchanged tokens from the source (input)
sequence to generate the target (output) sequence under the neural seq2seq
framework. However, most of the existing copy mechanisms only consider single
word copying from the source sentences, which results in losing essential
tokens while copying long spans. In this work, we propose a plug-and-play
architecture, namely BioCopy, to alleviate the problem aforementioned.
Specifically, in the training stage, we construct a BIO tag for each token and
train the original model with BIO tags jointly. In the inference stage, the
model will firstly predict the BIO tag at each time step, then conduct
different mask strategies based on the predicted BIO label to diminish the
scope of the probability distributions over the vocabulary list. Experimental
results on two separate generative tasks show that they all outperform the
baseline models by adding our BioCopy to the original model structure.
- Abstract(参考訳): コピー機構は、ソース(インプット)シーケンスから変化のないトークンを明示的に取得し、ニューラルセク2セックフレームワークの下でターゲット(アウトプット)シーケンスを生成する。
しかし、既存のコピー機構のほとんどは、ソース文からの単一単語のコピーのみを考慮し、長いスパンをコピーしながら本質的なトークンを失うことになる。
本研究では,上記の問題を緩和するために,BioCopyと呼ばれるプラグアンドプレイアーキテクチャを提案する。
具体的には、トレーニング段階において、トークン毎にBIOタグを構築し、BIOタグを併用してオリジナルのモデルをトレーニングする。
推測段階では、まず各タイミングでBIOタグを予測し、次に予測されたBIOラベルに基づいて異なるマスク戦略を実行し、語彙リスト上の確率分布の範囲を小さくする。
2つの別個の生成タスクの実験結果から,BioCopyを元のモデル構造に加えることで,ベースラインモデルよりも優れることが示された。
関連論文リスト
- Mitigating Copy Bias in In-Context Learning through Neuron Pruning [74.91243772654519]
大規模言語モデル(LLM)は、コンテキスト内学習能力に目を見張るものはほとんどない。
それらは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーする。
このような複写バイアスを軽減するための,新しい簡易な手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T07:18:16Z) - CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.00910067533982]
LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。
リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
論文 参考訳(メタデータ) (2024-07-09T17:58:18Z) - From Self-Attention to Markov Models: Unveiling the Dynamics of
Generative Transformers [41.82477691012942]
本研究では,一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。
まず、自己注意機構とマルコフモデルとの正確なマッピングを確立する。
我々は,自己注意による生成過程が崩壊し,トークンの限られた部分集合をサンプリングする,興味深い勝者とあらゆる現象を特徴付ける。
論文 参考訳(メタデータ) (2024-02-21T03:51:34Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - May the Force Be with Your Copy Mechanism: Enhanced Supervised-Copy
Method for Natural Language Generation [1.2453219864236247]
本稿では,どの単語をコピーする必要があるか,どの単語を生成する必要があるかをモデルが決定するのに役立つ,コピーネットワークの新しい教師付きアプローチを提案する。
具体的には、ソースシーケンスとターゲット語彙をコピーのガイダンスとして利用する目的関数を再定義する。
データ・テキスト・ジェネレーションと抽象的要約タスクの実験結果から,本手法が複写品質を高め,抽象性の程度を向上することを確認した。
論文 参考訳(メタデータ) (2021-12-20T06:54:28Z) - On the Copying Behaviors of Pre-Training for Neural Machine Translation [63.914940899327966]
これまでの研究で、ニューラルネットワーク翻訳(NMT)モデルを事前訓練言語モデル(LM)で初期化することは、モデルのトレーニングを高速化し、モデル性能を向上させることが示されている。
本研究では,NMTのトレーニング目標とNMTの訓練目標との相違から,NMTの事前訓練における重要な副作用を同定する。
本稿では,復号における複写動作を制御するために,複写ペナルティ(copying penalty)というシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-07-17T10:02:30Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z) - Fast and Effective Biomedical Entity Linking Using a Dual Encoder [48.86736921025866]
文書中の複数の言及を1ショットで解決するBERTベースのデュアルエンコーダモデルを提案する。
本稿では,提案モデルが既存のBERTモデルよりも複数倍高速であり,バイオメディカルエンティティリンクの精度に競争力があることを示す。
論文 参考訳(メタデータ) (2021-03-08T19:32:28Z) - CopyNext: Explicit Span Copying and Alignment in Sequence to Sequence
Models [31.832217465573503]
明示的なトークンレベルのコピー操作を持つモデルを示し、それを全スパンのコピーに拡張する。
我々のモデルは入力と出力のスパン間のハードアライメントを提供し、情報抽出のような非伝統的なセq2seqの応用を可能にする。
論文 参考訳(メタデータ) (2020-10-28T22:45:16Z) - Copy that! Editing Sequences by Copying Spans [40.23377412674599]
1ステップで入力のスパン全体を出力にコピーできるSeq2seqモデルの拡張を提案する。
自然言語とソースコードの様々な編集タスクの実験において、我々の新しいモデルはより単純なベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。