論文の概要: The Devil is in the Tails: How Long-Tailed Code Distributions Impact
Large Language Models
- arxiv url: http://arxiv.org/abs/2309.03567v1
- Date: Thu, 7 Sep 2023 08:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 08:42:40.861502
- Title: The Devil is in the Tails: How Long-Tailed Code Distributions Impact
Large Language Models
- Title(参考訳): The Devil is in the Tails: How Long-Tailed Code Distributions Impact Large Language Models
- Authors: Xin Zhou, Kisub Kim, Bowen Xu, Jiakun Liu, DongGyun Han, David Lo
- Abstract要約: コードのための人気のあるLarge Language Modelsを含む学習ベースのモデルは、データに大きく依存している。
長い尾の分布は、コードに対するLLMの有効性に大きな影響を与えます。
本研究は,LLMのコードに対する長期分布の影響をよりよく理解するものである。
- 参考スコア(独自算出の注目度): 15.462819541662752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based techniques, especially advanced Large Language Models (LLMs)
for code, have gained considerable popularity in various software engineering
(SE) tasks. However, most existing works focus on designing better
learning-based models and pay less attention to the properties of datasets.
Learning-based models, including popular LLMs for code, heavily rely on data,
and the data's properties (e.g., data distribution) could significantly affect
their behavior. We conducted an exploratory study on the distribution of SE
data and found that such data usually follows a skewed distribution (i.e.,
long-tailed distribution) where a small number of classes have an extensive
collection of samples, while a large number of classes have very few samples.
We investigate three distinct SE tasks and analyze the impacts of long-tailed
distribution on the performance of LLMs for code. Our experimental results
reveal that the long-tailed distribution has a substantial impact on the
effectiveness of LLMs for code. Specifically, LLMs for code perform between
30.0\% and 254.0\% worse on data samples associated with infrequent labels
compared to data samples of frequent labels. Our study provides a better
understanding of the effects of long-tailed distributions on popular LLMs for
code and insights for the future development of SE automation.
- Abstract(参考訳): 学習ベースのテクニック、特にコードのための高度な言語モデル(LLM)は、様々なソフトウェア工学(SE)タスクでかなりの人気を得ている。
しかし、既存の作品の多くはより優れた学習ベースのモデルの設計に焦点を当てており、データセットの特性にはあまり注意を払っていない。
コードのための人気のあるLLMを含む学習ベースのモデルはデータに大きく依存しており、データの特性(例えばデータ分散)はそれらの振る舞いに大きく影響する可能性がある。
本研究は,SEデータの分布に関する探索的研究を行い,これらのデータは通常,少数のクラスにサンプルのコレクションが多数存在し,多数のクラスにサンプルがほとんどないスキュード分布(ロングテール分布)に従っていることを確認した。
3つの異なるSEタスクについて検討し,LLMの性能に及ぼす長期分布の影響を解析した。
実験の結果,長鎖分布がLLMの有効性に大きく影響していることが判明した。
特に、コード用のLLMは、頻繁なラベルのデータサンプルと比較して、頻度の低いラベルに関連するデータサンプルでは30.0\%から254.0\%より悪い。
本研究は,SE自動化の今後の発展に向けた知見とコードに対するLLMに対する長期分布の影響をよりよく理解するものである。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Empirical Insights on Fine-Tuning Large Language Models for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models [21.10890310571397]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
この研究は、トレーニング中に言語モデルがデータセットを見たかどうかを評価するためのさまざまなテクニックを導入している。
次に、トレーニング中に見られたデータセット上でのLLMの数発の学習性能と、トレーニング後にリリースされたデータセットのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-04-09T10:58:21Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。
オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - In Search of the Long-Tail: Systematic Generation of Long-Tail Inferential Knowledge via Logical Rule Guided Search [67.35240346713911]
推論知識の長期分布において,大規模言語モデル (LLM) を評価するための第一歩を踏み出す。
Linkは体系的なロングテールデータ生成フレームワークであり、事実的に正しいがロングテール推論ステートメントを取得する。
次に、LINKを用いてLINT(Logic-induced-Long-Tail)をキュレートする。
論文 参考訳(メタデータ) (2023-11-13T10:56:59Z) - Ziya2: Data-centric Learning is All LLMs Need [41.44909548662012]
基礎モデルとしてLLaMA2を採用した13億のパラメータを持つモデルであるZiya2を提案する。
実験の結果、Ziya2は他のモデルを特にオープンソースと比較して有望な結果で、複数のベンチマークで大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-06T17:49:34Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。