論文の概要: Do You Have the Right Scissors? Tailoring Pre-trained Language Models
via Monte-Carlo Methods
- arxiv url: http://arxiv.org/abs/2007.06162v1
- Date: Mon, 13 Jul 2020 02:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 23:48:41.356935
- Title: Do You Have the Right Scissors? Tailoring Pre-trained Language Models
via Monte-Carlo Methods
- Title(参考訳): あなたは正しいはさみを持っていますか。
モンテカルロ法による事前学習言語モデルの調整
- Authors: Ning Miao, Yuxuan Song, Hao Zhou, Lei Li
- Abstract要約: これは、大きなコーパス上で言語モデルを事前訓練し、タスク固有のデータに基づいて微調整する一般的なアプローチである。
本稿では,テキスト生成タスクにおいて,過大推定領域から過小推定領域への確率質量の移動と移動によって問題を緩和する新しい手法であるMC-Tailorを提案する。
- 参考スコア(独自算出の注目度): 27.411569071211378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been a common approach to pre-train a language model on a large corpus
and fine-tune it on task-specific data. In practice, we observe that
fine-tuning a pre-trained model on a small dataset may lead to over- and/or
under-estimation problem. In this paper, we propose MC-Tailor, a novel method
to alleviate the above issue in text generation tasks by truncating and
transferring the probability mass from over-estimated regions to
under-estimated ones. Experiments on a variety of text generation datasets show
that MC-Tailor consistently and significantly outperforms the fine-tuning
approach. Our code is available at this url.
- Abstract(参考訳): これは、大きなコーパスで言語モデルを事前学習し、タスク固有のデータで微調整する一般的なアプローチである。
実際には、訓練済みのモデルを小さなデータセットで微調整すると過大評価や過小評価の問題が発生する可能性がある。
本稿では,テキスト生成タスクにおいて,過大推定領域から過大推定領域への確率質量の移動と移動によって,上記の問題を緩和するMC-Tailorを提案する。
様々なテキスト生成データセットの実験により、MC-Tailorは微調整のアプローチよりも一貫して、はるかに優れていることが示された。
私たちのコードはこの url で利用可能です。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Argument Mining in Data Scarce Settings: Cross-lingual Transfer and Few-shot Techniques [5.735035463793008]
また、Argument Miningでは、データ転送の方がモデル転送よりも優れた結果が得られることを示す。
数秒間、タスクの種類(シーケンスの長さと複雑さ)とサンプリングメソッドが重要であることが証明されている。
論文 参考訳(メタデータ) (2024-07-04T08:59:17Z) - Unsupervised Calibration through Prior Adaptation for Text
Classification using Large Language Models [37.39843935632105]
ラベル付きサンプルを必要とせずにテキスト分類タスクを実行するために,先行クラス分布に適応する手法を提案する。
その結果,これらの手法は,プロンプト内の訓練ショット数が異なる場合,適応しないモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-07-13T12:11:36Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Show Me How To Revise: Improving Lexically Constrained Sentence
Generation with XLNet [27.567493727582736]
本稿では,制約文生成のための2段階の手法"Predict and Revise"を提案する。
予測段階において、我々は分類器を利用して、候補文の学習前を計算した。
修正作業では, MCMCサンプリングを用いて, 学習前から抽出したサンプル位置でサンプル動作を行うことにより, 候補文の修正を行った。
実験結果から,提案手法は文の流布度や多様性の観点から,従来よりもはるかに優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-13T09:21:07Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。