論文の概要: Investigating Cost-Efficiency of LLM-Generated Training Data for Conversational Semantic Frame Analysis
- arxiv url: http://arxiv.org/abs/2410.06550v1
- Date: Wed, 9 Oct 2024 05:15:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:59:08.378310
- Title: Investigating Cost-Efficiency of LLM-Generated Training Data for Conversational Semantic Frame Analysis
- Title(参考訳): 対話型セマンティックフレーム分析のためのLLM生成トレーニングデータのコスト効率の検討
- Authors: Shiho Matta, Yin Jou Huang, Fei Cheng, Hirokazu Kiyomaru, Yugo Murawaki,
- Abstract要約: 高品質で高コストな人的データと、低品質で実質的に安価なLDM生成データとのトレードオフのバランスをとる方法を示す。
様々な予算レベルで実施した実験により,人間とLLM生成データを組み合わせた最適コスト効率が得られた。
- 参考スコア(独自算出の注目度): 18.44272589315175
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent studies have demonstrated that few-shot learning allows LLMs to generate training data for supervised models at a low cost. However, the quality of LLM-generated data may not entirely match that of human-labeled data. This raises a crucial question: how should one balance the trade-off between the higher quality but more expensive human data and the lower quality yet substantially cheaper LLM-generated data? In this paper, we synthesized training data for conversational semantic frame analysis using GPT-4 and examined how to allocate budgets optimally to achieve the best performance. Our experiments, conducted across various budget levels, reveal that optimal cost-efficiency is achieved by combining both human and LLM-generated data across a wide range of budget levels. Notably, as the budget decreases, a higher proportion of LLM-generated data becomes more preferable.
- Abstract(参考訳): 近年の研究では、LLMが教師付きモデルのトレーニングデータを低コストで作成できることが示されている。
しかし、LLM生成データの質は、人間のラベルデータと完全に一致しないかもしれない。
高品質だが高コストな人的データと、低品質で実質的に安価なLLM生成データとのトレードオフを、どのようにバランスさせるべきか?
本稿では,GPT-4を用いて対話型セマンティックフレーム分析のためのトレーニングデータを合成し,最適な性能を達成するために予算を最適に割り当てる方法について検討した。
様々な予算レベルで実施した実験により, 人・LLM生成データを多種多様な予算レベルで組み合わせることで, 最適コスト効率を実現することができた。
特に、予算が減少するにつれて、LCM生成データの割合の増大がより好ましいものとなる。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - Compute-Constrained Data Selection [77.06528009072967]
コスト対応ユーティリティ関数を用いてデータ選択の問題を定式化し、その問題をトレーニングのための初期選択コストのトレーディングとしてモデル化する。
複数のタスク、微調整トークンのスケーリングによる計算予算、モデルサイズ、データ選択計算など、包括的な実験を網羅的に実施しています。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback [2.07180164747172]
本稿では,RLHF(Reinforcement Learning from Human Feedback)の費用対効果について述べる。
RLHFは、大きな言語モデル(LLM)の出力よりも人間の好みのデータセットを活用して、人間の期待をLLMに注入する。
提案手法の導入は, 良好なモデル性能を維持しつつ, RLHFのコスト効率を高める上で重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-09-27T03:15:07Z) - Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。
8つのベンチマークで1億6000万のパラメータスケールで事前トレーニングを行う場合,提案手法は各ベンチマークにおいてDSIRよりも優れる。
論文 参考訳(メタデータ) (2024-09-09T17:23:29Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Regurgitative Training: The Value of Real Data in Training Large Language Models [1.2815904071470703]
LLMの性能に及ぼす「相対的学習」の影響について検討した。
退行訓練がLSMの性能を著しく向上させる強い証拠が得られている。
本稿では,3つの異なる戦略を提案して評価する。
論文 参考訳(メタデータ) (2024-07-03T18:42:55Z) - SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。
高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。
SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T17:45:47Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Towards Optimizing the Costs of LLM Usage [4.032848774697859]
理論的にも経験的にも、品質とコストを両立させる最適化問題について検討する。
トークンを品質に配慮した方法で低減するためのいくつかの決定論的手法を提案する。
本手法は,品質を4%から7%向上させながら,コストを40%から90%削減する。
論文 参考訳(メタデータ) (2024-01-29T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。