論文の概要: Transforming Sequence Tagging Into A Seq2Seq Task
- arxiv url: http://arxiv.org/abs/2203.08378v1
- Date: Wed, 16 Mar 2022 03:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:57:18.210557
- Title: Transforming Sequence Tagging Into A Seq2Seq Task
- Title(参考訳): Seq2Seqタスクにシーケンスタグを変換する
- Authors: Karthik Raman and Iftekhar Naim and Jiecao Chen and Kazuma Hashimoto
and Kiran Yalasangi and Krishna Srinivasan
- Abstract要約: 入力テキストをSeq2Seqモデルの入力とターゲットにキャストするために使用できる様々なフォーマットについて検討する。
新しいフォーマットを導入し、よりシンプルであるだけでなく、より効果的であることを示します。
この新しいフォーマットはより堅牢で、幻覚がほとんどない。
- 参考スコア(独自算出の注目度): 10.130389627403433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained, large, generative language models (LMs) have had great success in
a wide range of sequence tagging and structured prediction tasks. Casting a
sequence tagging task as a Seq2Seq one requires deciding the formats of the
input and output sequences. However, we lack a principled understanding of the
trade-offs associated with these formats (such as the effect on model accuracy,
sequence length, multilingual generalization, hallucination). In this paper, we
rigorously study different formats one could use for casting input text
sentences and their output labels into the input and target (i.e., output) of a
Seq2Seq model. Along the way, we introduce a new format, which we show to not
only be simpler but also more effective. Additionally the new format
demonstrates significant gains in the multilingual settings -- both zero-shot
transfer learning and joint training. Lastly, we find that the new format is
more robust and almost completely devoid of hallucination -- an issue we find
common in existing formats. With well over a 1000 experiments studying 14
different formats, over 7 diverse public benchmarks -- including 3 multilingual
datasets spanning 7 languages -- we believe our findings provide a strong
empirical basis in understanding how we should tackle sequence tagging tasks.
- Abstract(参考訳): 事前訓練された大規模生成言語モデル(LM)は、広範囲のシーケンスタグ付けと構造化予測タスクで大きな成功を収めている。
seq2seq 1 としてシーケンスタグ付けタスクをキャストするには、入出力シーケンスのフォーマットを決定する必要がある。
しかし、これらの形式に関連するトレードオフ(モデル精度、シーケンス長、多言語一般化、幻覚など)の原則的な理解は欠如している。
本稿では,Seq2Seqモデルの入力およびターゲット(すなわち出力)に入力テキストと出力ラベルをキャストするために使用できる様々なフォーマットについて,厳密に研究する。
その過程で,新しいフォーマットを導入することで,シンプルであるだけでなく,より効果的であることを示します。
さらに、新しいフォーマットは、ゼロショットトランスファー学習とジョイントトレーニングの両方で、多言語設定で大幅に向上している。
最後に、新しいフォーマットはより堅牢で、ほとんど完全に幻覚を欠いていることがわかりました -- 既存のフォーマットでよく見られる問題です。14の異なるフォーマットを研究する1000以上の実験と、7つの言語にまたがる3つの多言語データセットを含む7以上の公開ベンチマークによって、我々の発見はシーケンスタグタスクにどのように取り組むべきかを理解する上で、強い経験的な基礎を提供すると信じています。
関連論文リスト
- Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence
Understanding [103.34092301324425]
大規模言語モデル(LLM)は、オープンドメインのNLPタスクに顕著な能力を示している。
本稿では、オープンドメインの自然言語理解に特化して強化された、バイリンガル(英語と中国語)のオープンソース自己回帰モデルSeqGPTを提案する。
論文 参考訳(メタデータ) (2023-08-21T07:31:19Z) - On Measuring Social Biases in Prompt-Based Multi-Task Learning [1.3270286124913757]
我々は,プロンプトベース学習を用いて学習した大規模マルチタスクテキスト-テキスト言語モデルであるT0について検討した。
意味論的に等価な入力の2つの形態について考察する。
論文 参考訳(メタデータ) (2022-05-23T20:01:20Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval [15.902630454568811]
本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。
翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
論文 参考訳(メタデータ) (2021-09-07T00:33:14Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Copy that! Editing Sequences by Copying Spans [40.23377412674599]
1ステップで入力のスパン全体を出力にコピーできるSeq2seqモデルの拡張を提案する。
自然言語とソースコードの様々な編集タスクの実験において、我々の新しいモデルはより単純なベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。