論文の概要: Anti-LM Decoding for Zero-shot In-context Machine Translation
- arxiv url: http://arxiv.org/abs/2311.08324v1
- Date: Tue, 14 Nov 2023 17:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:13:44.657046
- Title: Anti-LM Decoding for Zero-shot In-context Machine Translation
- Title(参考訳): ゼロショットインコンテキスト機械翻訳のためのアンチLMデコード
- Authors: Suzanna Sia, Alexandra DeLucia, Kevin Duh
- Abstract要約: 本研究は, 文脈内機械翻訳の弱点に対処するために, 減衰係数を付加したアンチランゲージモデルを提案する。
3つのモデルタイプとサイズ,3つの言語方向,およびグリージーデコーディングとビームサーチの両方に対して実験を行う。
- 参考スコア(独自算出の注目度): 64.73770153577743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot In-context learning is the phenomenon where models can perform the
task simply given the instructions. However, pre-trained large language models
are known to be poorly calibrated for this task. One of the most effective
approaches to handling this bias is to adopt a contrastive decoding objective,
which accounts for the prior probability of generating the next token by
conditioning on some context. This work introduces an Anti-Language Model
objective with a decay factor designed to address the weaknesses of In-context
Machine Translation. We conduct our experiments across 3 model types and sizes,
3 language directions, and for both greedy decoding and beam search ($B=5$).
The proposed method outperforms other state-of-art decoding objectives, with up
to $20$ BLEU point improvement from the default objective observed in some
settings.
- Abstract(参考訳): ゼロショット・イン・コンテキスト学習(zero-shot in-context learning)は、モデルが指示を与えられただけでタスクを実行することができる現象である。
しかし、事前訓練された大規模言語モデルは、このタスクの調整が不十分であることが知られている。
このバイアスに対処するための最も効果的なアプローチの1つは、コンディショニングによって次のトークンを生成する前の確率を考慮し、コントラスト復号の目的を採用することである。
本研究は, 文脈内機械翻訳の弱点に対処するために, 減衰係数を用いたアンチランゲージモデルを提案する。
実験は、3つのモデルタイプとサイズ、3つの言語方向、およびgreedy decoding と beam search(B=5$)の両方を対象に行います。
提案手法は、いくつかの設定で観測されるデフォルトの目的から最大20ドルのBLEUポイントの改善により、他の最先端のデコーディング目標よりも優れる。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization [34.29833630422768]
Adversarial Contrastive Decoding (ACD)は、プロンプトベースのコントラストデコーディングのための2つの逆のシステムプロンプトを生成する最適化ベースのフレームワークである。
ACDは、元の生成能力を犠牲にすることなく、従来のトレーニング不要復号法よりもはるかに優れた安全性を実現する。
論文 参考訳(メタデータ) (2024-06-24T15:51:30Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Rethinking Zero-shot Neural Machine Translation: From a Perspective of
Latent Variables [28.101782382170306]
従来の訓練対象にピボット言語に基づく自動エンコーダ目標を導入し,ゼロショット方向の翻訳精度を向上させる。
提案手法は, 突発的相関を効果的に排除し, 顕著な性能で最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-10T07:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。