論文の概要: Efficient Response Generation Method Selection for Fine-Tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2502.11779v1
- Date: Mon, 17 Feb 2025 13:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:21.403951
- Title: Efficient Response Generation Method Selection for Fine-Tuning Large Language Models
- Title(参考訳): 微調整大言語モデルに対する効率的な応答生成手法の選択
- Authors: Xuan Ren, Qi Chen, Lingqiao Liu,
- Abstract要約: 近年の研究では、トレーニングで使用する出力変動の選択がモデルの性能に影響を与えることが報告されている。
本稿では,生成したトレーニングデータの小さなサブセットの品質を推定する,スケーラブルで近似的な手法を提案する。
選択した戦略によって生成されたデータに基づいて訓練されたLCMが、大きなパフォーマンス向上をもたらす可能性があることを示す。
- 参考スコア(独自算出の注目度): 28.717420152590204
- License:
- Abstract: The training data for fine-tuning large language models (LLMs) is typically structured as input-output pairs. However, for many tasks, there can be multiple equally valid output variations for the same input. Recent studies have observed that the choice of output variation used in training can affect the model's performance. This raises an important question: how can we generate the most effective output from the many possible response generation strategy options? Rather than relying on the traditional but resource-intensive train-and-evaluate approach, this paper proposes a scalable, approximate method for estimating the quality of a small subset of generated training data derived from the same input. We then evaluate how well this small subset of generated output fits the target model we are trying to train. We present a large-scale benchmark covering diverse reasoning-based datasets to support our study. The central idea is that a good output should closely resemble the output generated by the target LLM. We formalize this 'closeness' as the expected alignment score between a candidate output and the output sampled from the target LLM. We connect this measurement to the perplexity metric used in previous literature and demonstrate that leveraging an alignment-based metric can provide better predictions of model performance. Using this strategy, we can evaluate a small subset of the generated output from each response generation strategy option, then select the most effective strategy. We show that an LLM trained on data generated by the selected strategy could lead to a significant performance gain in many cases.
- Abstract(参考訳): 微調整された大言語モデル(LLM)のトレーニングデータは、通常、入出力ペアとして構成される。
しかし、多くのタスクに対して、同じ入力に対して同等に有効な出力のバリエーションが複数存在する。
近年の研究では、トレーニングで使用する出力変動の選択がモデルの性能に影響を与えることが報告されている。
多くの可能なレスポンス生成戦略オプションから、どのように最も効果的なアウトプットを生成することができるのか?
本稿では,従来の資源集約型トレイン・アンド・評価手法に頼らず,同じ入力から生成した学習データの小さなサブセットの品質を推定する,スケーラブルで近似的な手法を提案する。
次に、生成された出力のこの小さなサブセットが、トレーニングしようとしているターゲットモデルにどの程度適合しているかを評価します。
本研究を支援するために,多種多様な推論に基づくデータセットを網羅した大規模ベンチマークを提案する。
中心的な考え方は、良い出力はターゲットのLSMが生成した出力と密接に類似すべきであるということである。
我々は、この「クローズネス」を、候補出力と対象LLMからサンプリングされた出力とのアライメントスコアとして定式化する。
我々は,この測定を過去の文献で使用したパープレキシティ・メトリックと結びつけ,アライメント・ベース・メトリックの活用がモデル性能の予測に有効であることを実証した。
この戦略を用いて、各応答生成戦略オプションから生成された出力の小さなサブセットを評価し、最も効果的な戦略を選択することができる。
選択した戦略によって生成されたデータに基づいて訓練されたLCMが、多くの場合において顕著な性能向上をもたらす可能性があることを示す。
関連論文リスト
- Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Enhancing Subtask Performance of Multi-modal Large Language Model [12.033301861738952]
MLLM(Multi-modal Large Language Model)は、マルチモーダルデータを扱う能力を持つLarge Language Model(LLM)から拡張されたモデルである。
本研究では、異なる評価手法に基づいて、同一サブタスクに焦点を当てた複数の事前学習モデルを選択する。
同じサブタスクに対する複数の事前学習モデルの結果をLLMを用いて比較し、そのサブタスクの結果として最もよい結果を選択する。
論文 参考訳(メタデータ) (2023-08-31T05:37:21Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。