論文の概要: Generate to Understand for Representation
- arxiv url: http://arxiv.org/abs/2306.10056v1
- Date: Wed, 14 Jun 2023 06:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:28:17.203947
- Title: Generate to Understand for Representation
- Title(参考訳): 表現を理解するために生成する
- Authors: Changshang Xue, Xiande Zhong, Xiaoqing Liu
- Abstract要約: GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 3.5325087487696463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, a significant number of high-quality pretrained models have
emerged, greatly impacting Natural Language Understanding (NLU), Natural
Language Generation (NLG), and Text Representation tasks. Traditionally, these
models are pretrained on custom domain corpora and finetuned for specific
tasks, resulting in high costs related to GPU usage and labor. Unfortunately,
recent trends in language modeling have shifted towards enhancing performance
through scaling, further exacerbating the associated costs.
Introducing GUR: a pretraining framework that combines language modeling and
contrastive learning objectives in a single training step. We select similar
text pairs based on their Longest Common Substring (LCS) from raw unlabeled
documents and train the model using masked language modeling and unsupervised
contrastive learning. The resulting model, GUR, achieves impressive results
without any labeled training data, outperforming all other pretrained baselines
as a retriever at the recall benchmark in a zero-shot setting. Additionally,
GUR maintains its language modeling ability, as demonstrated in our ablation
experiment. Our code is available at \url{https://github.com/laohur/GUR}.
- Abstract(参考訳): 近年,自然言語理解(NLU)や自然言語生成(NLG),テキスト表現タスクなど,高品質な事前訓練モデルが多数出現している。
従来、これらのモデルはカスタムドメインコーパスで事前トレーニングされ、特定のタスク用に微調整されており、gpuの使用と労力に関するコストが高くなる。
残念ながら、最近の言語モデリングのトレンドは、スケーリングによるパフォーマンス向上に移行し、関連するコストをさらに高めている。
GUR: 言語モデリングと対照的な学習目標を組み合わせた事前トレーニングフレームワークを,単一のトレーニングステップで導入する。
文書からLCS(Longest Common Substring)に基づいて類似したテキストペアを選択し,マスク付き言語モデリングと教師なしコントラスト学習を用いてモデルを訓練する。
その結果得られたモデルであるGURは、ラベル付きトレーニングデータを使わずに印象的な結果を得ることができ、ゼロショット設定でリコールベンチマークにおいて、他のトレーニング済みベースラインよりも優れている。
さらに,我々のアブレーション実験で示されたように,GURは言語モデリング能力を維持している。
我々のコードは \url{https://github.com/laohur/GUR} で入手できる。
関連論文リスト
- Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - ReGen: Zero-Shot Text Classification via Training Data Generation with
Progressive Dense Retrieval [22.882301169283323]
一般ドメインの未ラベルコーパスからトレーニングデータを作成するための検索強化フレームワークを提案する。
9つのデータセットの実験では、REGENは最強のベースラインに対して4.3%のゲインを達成し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。
論文 参考訳(メタデータ) (2023-05-18T04:30:09Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - ANNA: Enhanced Language Representation for Question Answering [5.713808202873983]
事前学習モデルでは,各アプローチが個別にパフォーマンスにどう影響するかを示し,そのアプローチが共同で検討されている。
本稿では,事前学習タスクの拡張と,近隣のトークンにもっと参加して,事前学習言語モデリングのコンテキストの豊かさを把握できる新しい近隣認識機構を提案する。
我々の最良のモデルは、SQuAD 1.1上で95.7% F1と90.6% EMの新たな最先端結果を実現し、RoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。
論文 参考訳(メタデータ) (2022-03-28T05:26:52Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。