論文の概要: TST$^\mathrm{R}$: Target Similarity Tuning Meets the Real World
- arxiv url: http://arxiv.org/abs/2310.17228v1
- Date: Thu, 26 Oct 2023 08:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 21:20:04.241693
- Title: TST$^\mathrm{R}$: Target Similarity Tuning Meets the Real World
- Title(参考訳): tst$^\mathrm{r}$: ターゲットの類似性チューニングが現実世界を満たしている
- Authors: Anirudh Khatry, Sumit Gulwani, Priyanshu Gupta, Vu Le, Ananya Singha,
Mukul Singh, Gust Verbruggen
- Abstract要約: ターゲット類似性チューニング(TST)は、自然言語(NL)から大規模言語モデル(LLM)によるコード生成を選択し、性能を向上させる手法である。
本稿では,現実世界におけるTSTの適用と改善のための異なる手法を提案する。
- 参考スコア(独自算出の注目度): 14.150902656157342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Target similarity tuning (TST) is a method of selecting relevant examples in
natural language (NL) to code generation through large language models (LLMs)
to improve performance. Its goal is to adapt a sentence embedding model to have
the similarity between two NL inputs match the similarity between their
associated code outputs. In this paper, we propose different methods to apply
and improve TST in the real world. First, we replace the sentence transformer
with embeddings from a larger model, which reduces sensitivity to the language
distribution and thus provides more flexibility in synthetic generation of
examples, and we train a tiny model that transforms these embeddings to a space
where embedding similarity matches code similarity, which allows the model to
remain a black box and only requires a few matrix multiplications at inference
time. Second, we how to efficiently select a smaller number of training
examples to train the TST model. Third, we introduce a ranking-based evaluation
for TST that does not require end-to-end code generation experiments, which can
be expensive to perform.
- Abstract(参考訳): ターゲット類似性チューニング(TST)は、自然言語(NL)から大規模言語モデル(LLM)によるコード生成を選択し、性能を向上させる手法である。
その目標は、2つのNL入力間の類似性を持つ文埋め込みモデルを、関連するコード出力間の類似性に適合させることである。
本稿では,現実世界におけるTSTの適用と改善のための異なる手法を提案する。
まず、文変換器をより大きなモデルからの埋め込みに置き換えることで、言語分布に対する感度を低減し、例の合成における柔軟性を高めるとともに、これらの埋め込みをコード類似性にマッチする空間に変換する小さなモデルを訓練し、モデルがブラックボックスのままで、推論時に数個の行列乗算しか必要としない。
第二に、TSTモデルをトレーニングするために、少数のトレーニング例を効率的に選択する方法です。
第3に,エンドツーエンドのコード生成実験を必要としないTSTのランキングに基づく評価を導入する。
関連論文リスト
- Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Boosting Commit Classification with Contrastive Learning [0.8655526882770742]
コミット分類(CC)は、ソフトウェアのメンテナンスにおいて重要なタスクである。
対照的な学習に基づくコミット分類フレームワークを提案する。
われわれのフレームワークはCCの問題をシンプルに解決できるが、スプリットショットのシナリオでは効果的に解決できる。
論文 参考訳(メタデータ) (2023-08-16T10:02:36Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - pFedSim: Similarity-Aware Model Aggregation Towards Personalized
Federated Learning [27.668944118750115]
モデルトレーニング中にデータのプライバシを保護するために、フェデレーション学習(FL)パラダイムが出現する。
FLの最大の課題の1つは、IID以外の(同一で、独立に分散されていない)データにある。
本稿では,モデル類似性に基づく新しいpFedSimアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-25T04:25:55Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Revisiting Simple Neural Probabilistic Language Models [27.957834093475686]
本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
論文 参考訳(メタデータ) (2021-04-08T02:18:47Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - WARP: Word-level Adversarial ReProgramming [13.08689221166729]
多くのアプリケーションでは、多くのパラメータを複数のタスクで共有できるように、より小さなパラメータセットをチューニングすることが望ましい。
自動プロンプト生成に関する初期の研究を拡張した逆転プログラミングに基づく代替アプローチを提案する。
提案手法は,SST-2およびMNLIデータセット上で,類似のトレーニング可能なパラメータ数で他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-01T00:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。