論文の概要: Efficient Response Generation Method Selection for Fine-Tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11779v1
- Date: Mon, 17 Feb 2025 13:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:45.298713
- Title: Efficient Response Generation Method Selection for Fine-Tuning Large Language Models
- Title(参考訳): 微調整大言語モデルに対する効率的な応答生成手法の選択
- Authors: Xuan Ren, Qi Chen, Lingqiao Liu,
- Abstract要約: 近年の研究では、トレーニングで使用する出力変動の選択がモデルの性能に影響を与えることが報告されている。
本稿では,生成したトレーニングデータの小さなサブセットの品質を推定する,スケーラブルで近似的な手法を提案する。
選択した戦略によって生成されたデータに基づいて訓練されたLCMが、大きなパフォーマンス向上をもたらす可能性があることを示す。
- 参考スコア(独自算出の注目度): 28.717420152590204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training data for fine-tuning large language models (LLMs) is typically structured as input-output pairs. However, for many tasks, there can be multiple equally valid output variations for the same input. Recent studies have observed that the choice of output variation used in training can affect the model's performance. This raises an important question: how can we generate the most effective output from the many possible response generation strategy options? Rather than relying on the traditional but resource-intensive train-and-evaluate approach, this paper proposes a scalable, approximate method for estimating the quality of a small subset of generated training data derived from the same input. We then evaluate how well this small subset of generated output fits the target model we are trying to train. We present a large-scale benchmark covering diverse reasoning-based datasets to support our study. The central idea is that a good output should closely resemble the output generated by the target LLM. We formalize this 'closeness' as the expected alignment score between a candidate output and the output sampled from the target LLM. We connect this measurement to the perplexity metric used in previous literature and demonstrate that leveraging an alignment-based metric can provide better predictions of model performance. Using this strategy, we can evaluate a small subset of the generated output from each response generation strategy option, then select the most effective strategy. We show that an LLM trained on data generated by the selected strategy could lead to a significant performance gain in many cases.
- Abstract(参考訳): 微調整された大言語モデル(LLM)のトレーニングデータは、通常、入出力ペアとして構成される。
しかし、多くのタスクに対して、同じ入力に対して同等に有効な出力のバリエーションが複数存在する。
近年の研究では、トレーニングで使用する出力変動の選択がモデルの性能に影響を与えることが報告されている。
多くの可能なレスポンス生成戦略オプションから、どのように最も効果的なアウトプットを生成することができるのか?
本稿では,従来の資源集約型トレイン・アンド・評価手法に頼らず,同じ入力から生成した学習データの小さなサブセットの品質を推定する,スケーラブルで近似的な手法を提案する。
次に、生成された出力のこの小さなサブセットが、トレーニングしようとしているターゲットモデルにどの程度適合しているかを評価します。
本研究を支援するために,多種多様な推論に基づくデータセットを網羅した大規模ベンチマークを提案する。
中心的な考え方は、良い出力はターゲットのLSMが生成した出力と密接に類似すべきであるということである。
我々は、この「クローズネス」を、候補出力と対象LLMからサンプリングされた出力とのアライメントスコアとして定式化する。
我々は,この測定を過去の文献で使用したパープレキシティ・メトリックと結びつけ,アライメント・ベース・メトリックの活用がモデル性能の予測に有効であることを実証した。
この戦略を用いて、各応答生成戦略オプションから生成された出力の小さなサブセットを評価し、最も効果的な戦略を選択することができる。
選択した戦略によって生成されたデータに基づいて訓練されたLCMが、多くの場合において顕著な性能向上をもたらす可能性があることを示す。
関連論文リスト
- Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。
提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文 参考訳(メタデータ) (2025-04-02T20:33:27Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。