論文の概要: Language-Independent Representations Improve Zero-Shot Summarization
- arxiv url: http://arxiv.org/abs/2404.05720v1
- Date: Mon, 8 Apr 2024 17:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:32:03.655598
- Title: Language-Independent Representations Improve Zero-Shot Summarization
- Title(参考訳): 言語に依存しない表現はゼロショット要約を改善する
- Authors: Vladimir Solovyev, Danni Liu, Jan Niehues,
- Abstract要約: 下流生成タスクで事前訓練されたモデルを微調整すると、ゼロショット条件で大惨事に陥ることが多い。
本研究では,要約に焦点をあて,言語に依存しない表現のレンズを用いてこの問題に対処する。
まず, 出力挙動と内部表現の両面において, 微調整モデルが非常に言語固有であることが示され, その結果, ゼロショット性能は低下した。
- 参考スコア(独自算出の注目度): 18.46817967804773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning pretrained models on downstream generation tasks often leads to catastrophic forgetting in zero-shot conditions. In this work, we focus on summarization and tackle the problem through the lens of language-independent representations. After training on monolingual summarization, we perform zero-shot transfer to new languages or language pairs. We first show naively finetuned models are highly language-specific in both output behavior and internal representations, resulting in poor zero-shot performance. Next, we propose query-key (QK) finetuning to decouple task-specific knowledge from the pretrained language generation abilities. Then, after showing downsides of the standard adversarial language classifier, we propose a balanced variant that more directly enforces language-agnostic representations. Moreover, our qualitative analyses show removing source language identity correlates to zero-shot summarization performance. Our code is openly available.
- Abstract(参考訳): 下流生成タスクで事前訓練されたモデルを微調整すると、ゼロショット条件で大惨事に陥ることが多い。
本研究では,要約に焦点をあて,言語に依存しない表現のレンズを用いてこの問題に対処する。
単言語要約の訓練の後、新しい言語や言語ペアへのゼロショット転送を行う。
まず, 出力挙動と内部表現の両面において, 微調整モデルが非常に言語固有であることが示され, その結果, ゼロショット性能は低下した。
次に,タスク固有の知識を事前訓練された言語生成能力から切り離すためのクエリキー(QK)ファインタニングを提案する。
そして、標準逆言語分類器の欠点を示した後、より直接的に言語に依存しない表現を強制するバランスのとれた変種を提案する。
さらに,筆者らの定性解析では,ソースコードの識別がゼロショット要約性能と相関していることが示されている。
私たちのコードは公開されています。
関連論文リスト
- Why Does Zero-Shot Cross-Lingual Generation Fail? An Explanation and a
Solution [0.9085116579988537]
細調整プロセスは言語不変表現を学習し、分類タスクには有益であるが、生成タスクには有害であることを示す。
3つの意味的に多様な生成タスクの実験により,提案手法は事故翻訳問題を68%削減し,ROUGE-Lスコアを平均1.5改善した。
論文 参考訳(メタデータ) (2023-05-27T02:04:19Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Language Model Priming for Cross-Lingual Event Extraction [1.8734449181723827]
本稿では,イベント抽出作業のための"プライミング"言語モデルに対する,言語に依存しない新しいアプローチを提案する。
本研究では,スパースおよびノイズの多い学習データの不足を言語モデルで補うことにより,ゼロショットの言語間設定において,引き起こしと引数の検出と分類の両面での精度を向上することを示す。
論文 参考訳(メタデータ) (2021-09-25T15:19:32Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - Improving Zero-Shot Translation by Disentangling Positional Information [24.02434897109097]
言語固有の表現を引き起こす主な要因は、入力トークンに対する位置対応であることを示す。
指示方向の品質を維持しながら、ゼロショット翻訳で最大18.5 BLEUポイントを得る。
論文 参考訳(メタデータ) (2020-12-30T12:20:41Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。