論文の概要: ContraGen: Effective Contrastive Learning For Causal Language Model
- arxiv url: http://arxiv.org/abs/2210.01185v1
- Date: Mon, 3 Oct 2022 18:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:06:18.336061
- Title: ContraGen: Effective Contrastive Learning For Causal Language Model
- Title(参考訳): ContraGen: 因果言語モデルのための効果的なコントラスト学習
- Authors: Nihal Jain, Dejiao Zhang, Wasi Uddin Ahmad, Zijian Wang, Feng Nan,
Xiaopeng Li, Ming Tan, Ramesh Nallapati, Baishakhi Ray, Parminder Bhatia,
Xiaofei Ma, Bing Xiang
- Abstract要約: ContraGenは、一様性や差別性を向上して表現を改善するための、新しいコントラスト学習フレームワークである。
ContraGenは表現の統一性と識別を効果的に強化し、様々な言語理解タスクにおいて望ましい改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 54.828635613501376
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite exciting progress in large-scale language generation, the
expressiveness of its representations is severely limited by the
\textit{anisotropy} issue where the hidden representations are distributed into
a narrow cone in the vector space. To address this issue, we present ContraGen,
a novel contrastive learning framework to improve the representation with
better uniformity and discrimination. We assess ContraGen on a wide range of
downstream tasks in natural and programming languages. We show that ContraGen
can effectively enhance both uniformity and discrimination of the
representations and lead to the desired improvement on various language
understanding tasks where discriminative representations are crucial for
attaining good performance. Specifically, we attain $44\%$ relative improvement
on the Semantic Textual Similarity tasks and $34\%$ on Code-to-Code Search
tasks. Furthermore, by improving the expressiveness of the representations,
ContraGen also boosts the source code generation capability with $9\%$ relative
improvement on execution accuracy on the HumanEval benchmark.
- Abstract(参考訳): 大規模な言語生成におけるエキサイティングな進歩にもかかわらず、その表現の表現性は、隠れた表現をベクトル空間内の狭い円錐に分配する \textit{anisotropy} 問題によって著しく制限されている。
この問題に対処するため,コントラジェンは,一様性や差別性が向上した表現を改善するための,新しい対照的な学習フレームワークである。
我々はContraGenを、自然言語およびプログラミング言語における幅広い下流タスクで評価する。
本稿では,表現の均一性と識別性の両方を効果的に向上させ,優れた性能を達成するために識別表現が不可欠である様々な言語理解タスクにおいて望ましい改善をもたらすことを示す。
具体的には、Semantic Textual similarityタスクの相対的な改善が44.%、Code-to-Code Searchタスクが34.%です。
さらに、表現の表現性を改善することで、ContraGenは、HumanEvalベンチマーク上での実行精度を相対的に9\%改善して、ソースコード生成能力を向上する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Linguistics Theory Meets LLM: Code-Switched Text Generation via Equivalence Constrained Large Language Models [16.82812708514889]
1つの会話で2つ以上の言語を交互に交互に行うコードスイッチングは、自然言語処理(NLP)に特有の課題を提示する
既存の研究は構文的制約やニューラルジェネレーションに重点を置いており、言語理論を言語モデル(LLM)と統合して自然なコード変更テキストを生成する努力はほとんどない。
等価制約理論(ECT)とLLMを組み合わせた新しいフレームワークであるEZSwitchを導入する。
論文 参考訳(メタデータ) (2024-10-30T03:03:32Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T15:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。