論文の概要: The Devil is in the Tails: How Long-Tailed Code Distributions Impact
Large Language Models
- arxiv url: http://arxiv.org/abs/2309.03567v1
- Date: Thu, 7 Sep 2023 08:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 08:42:40.861502
- Title: The Devil is in the Tails: How Long-Tailed Code Distributions Impact
Large Language Models
- Title(参考訳): The Devil is in the Tails: How Long-Tailed Code Distributions Impact Large Language Models
- Authors: Xin Zhou, Kisub Kim, Bowen Xu, Jiakun Liu, DongGyun Han, David Lo
- Abstract要約: コードのための人気のあるLarge Language Modelsを含む学習ベースのモデルは、データに大きく依存している。
長い尾の分布は、コードに対するLLMの有効性に大きな影響を与えます。
本研究は,LLMのコードに対する長期分布の影響をよりよく理解するものである。
- 参考スコア(独自算出の注目度): 15.462819541662752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based techniques, especially advanced Large Language Models (LLMs)
for code, have gained considerable popularity in various software engineering
(SE) tasks. However, most existing works focus on designing better
learning-based models and pay less attention to the properties of datasets.
Learning-based models, including popular LLMs for code, heavily rely on data,
and the data's properties (e.g., data distribution) could significantly affect
their behavior. We conducted an exploratory study on the distribution of SE
data and found that such data usually follows a skewed distribution (i.e.,
long-tailed distribution) where a small number of classes have an extensive
collection of samples, while a large number of classes have very few samples.
We investigate three distinct SE tasks and analyze the impacts of long-tailed
distribution on the performance of LLMs for code. Our experimental results
reveal that the long-tailed distribution has a substantial impact on the
effectiveness of LLMs for code. Specifically, LLMs for code perform between
30.0\% and 254.0\% worse on data samples associated with infrequent labels
compared to data samples of frequent labels. Our study provides a better
understanding of the effects of long-tailed distributions on popular LLMs for
code and insights for the future development of SE automation.
- Abstract(参考訳): 学習ベースのテクニック、特にコードのための高度な言語モデル(LLM)は、様々なソフトウェア工学(SE)タスクでかなりの人気を得ている。
しかし、既存の作品の多くはより優れた学習ベースのモデルの設計に焦点を当てており、データセットの特性にはあまり注意を払っていない。
コードのための人気のあるLLMを含む学習ベースのモデルはデータに大きく依存しており、データの特性(例えばデータ分散)はそれらの振る舞いに大きく影響する可能性がある。
本研究は,SEデータの分布に関する探索的研究を行い,これらのデータは通常,少数のクラスにサンプルのコレクションが多数存在し,多数のクラスにサンプルがほとんどないスキュード分布(ロングテール分布)に従っていることを確認した。
3つの異なるSEタスクについて検討し,LLMの性能に及ぼす長期分布の影響を解析した。
実験の結果,長鎖分布がLLMの有効性に大きく影響していることが判明した。
特に、コード用のLLMは、頻繁なラベルのデータサンプルと比較して、頻度の低いラベルに関連するデータサンプルでは30.0\%から254.0\%より悪い。
本研究は,SE自動化の今後の発展に向けた知見とコードに対するLLMに対する長期分布の影響をよりよく理解するものである。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - How Robust are LLMs to In-Context Majority Label Bias? [3.3577727874594654]
本研究では,Large Language Models (LLMs) における文脈内学習のロバスト性について検討する。
また,モデルサイズの影響と,モデルの堅牢性に寄与する指導プロンプトの豊かさを強調した。
論文 参考訳(メタデータ) (2023-12-27T12:20:12Z) - In Search of the Long-Tail: Systematic Generation of Long-Tail
Inferential Knowledge via Logical Rule Guided Search [69.59343233016517]
最先端のLLMは、自然言語推論のような推論タスクにおいて人間よりも優れています。
LLMを評価する最近の研究は、低確率分布、すなわち、ロングテールからの入力データに対する顕著な性能低下に注目している。
本稿では,象徴的ルールテンプレートに基づく事実的正確で長い知識文を生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-13T10:56:59Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Frequency-Aware Self-Supervised Long-Tailed Learning [36.00672675332761]
固有長周期分布を持つラベルのないデータから学習するための周波数対応自己監視学習(FASSL)を提案する。
まず, 周波数認識型プロトタイプを学習し, 関連する長い尾の分布を反映する。特にレアクラスのサンプルに着目し, 画像データと派生プロトタイプの関係を活用。
論文 参考訳(メタデータ) (2023-09-09T08:57:40Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - A Comparative Survey of Deep Active Learning [76.04825433362709]
Active Learning (AL)は、ラベル付けのための大きなラベル付けされていないデータプールからデータサンプルを順次選択することで、ラベル付けコストを削減するための一連のテクニックである。
ディープラーニング(DL)はデータハングリーであり、DLモデルのパフォーマンスは、より多くのトレーニングデータとともに単調にスケールする。
近年、Deep Active Learning (DAL) は、高価なラベリングコストを最小化しつつ、モデル性能を最大化するための実現可能なソリューションとして上昇している。
論文 参考訳(メタデータ) (2022-03-25T05:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。