論文の概要: ContraGen: Effective Contrastive Learning For Causal Language Model
- arxiv url: http://arxiv.org/abs/2210.01185v1
- Date: Mon, 3 Oct 2022 18:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:06:18.336061
- Title: ContraGen: Effective Contrastive Learning For Causal Language Model
- Title(参考訳): ContraGen: 因果言語モデルのための効果的なコントラスト学習
- Authors: Nihal Jain, Dejiao Zhang, Wasi Uddin Ahmad, Zijian Wang, Feng Nan,
Xiaopeng Li, Ming Tan, Ramesh Nallapati, Baishakhi Ray, Parminder Bhatia,
Xiaofei Ma, Bing Xiang
- Abstract要約: ContraGenは、一様性や差別性を向上して表現を改善するための、新しいコントラスト学習フレームワークである。
ContraGenは表現の統一性と識別を効果的に強化し、様々な言語理解タスクにおいて望ましい改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 54.828635613501376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite exciting progress in large-scale language generation, the
expressiveness of its representations is severely limited by the
\textit{anisotropy} issue where the hidden representations are distributed into
a narrow cone in the vector space. To address this issue, we present ContraGen,
a novel contrastive learning framework to improve the representation with
better uniformity and discrimination. We assess ContraGen on a wide range of
downstream tasks in natural and programming languages. We show that ContraGen
can effectively enhance both uniformity and discrimination of the
representations and lead to the desired improvement on various language
understanding tasks where discriminative representations are crucial for
attaining good performance. Specifically, we attain $44\%$ relative improvement
on the Semantic Textual Similarity tasks and $34\%$ on Code-to-Code Search
tasks. Furthermore, by improving the expressiveness of the representations,
ContraGen also boosts the source code generation capability with $9\%$ relative
improvement on execution accuracy on the HumanEval benchmark.
- Abstract(参考訳): 大規模な言語生成におけるエキサイティングな進歩にもかかわらず、その表現の表現性は、隠れた表現をベクトル空間内の狭い円錐に分配する \textit{anisotropy} 問題によって著しく制限されている。
この問題に対処するため,コントラジェンは,一様性や差別性が向上した表現を改善するための,新しい対照的な学習フレームワークである。
我々はContraGenを、自然言語およびプログラミング言語における幅広い下流タスクで評価する。
本稿では,表現の均一性と識別性の両方を効果的に向上させ,優れた性能を達成するために識別表現が不可欠である様々な言語理解タスクにおいて望ましい改善をもたらすことを示す。
具体的には、Semantic Textual similarityタスクの相対的な改善が44.%、Code-to-Code Searchタスクが34.%です。
さらに、表現の表現性を改善することで、ContraGenは、HumanEvalベンチマーク上での実行精度を相対的に9\%改善して、ソースコード生成能力を向上する。
関連論文リスト
- Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Transfer Attacks and Defenses for Large Language Models on Coding Tasks [30.065641782962974]
大規模言語モデル(LLM)を用いた符号化作業における対向的摂動の影響について検討する。
本稿では,逆方向の摂動を逆転させるために,逆方向の摂動コードや明示的な指示の例を含むようにプロンプトを変更するプロンプトベースの防御手法を提案する。
実験の結果、より小さなコードモデルで得られた逆例は確かに転送可能であり、LLMの性能は低下していることがわかった。
論文 参考訳(メタデータ) (2023-11-22T15:11:35Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T15:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。