論文の概要: Efficient Response Generation Strategy Selection for Fine-Tuning Large Language Models Through Self-Aligned Perplexity
- arxiv url: http://arxiv.org/abs/2502.11779v2
- Date: Tue, 08 Apr 2025 13:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:26:35.427261
- Title: Efficient Response Generation Strategy Selection for Fine-Tuning Large Language Models Through Self-Aligned Perplexity
- Title(参考訳): 自己整合パープレキシティによる微調整大言語モデルの効率的な応答生成戦略選択
- Authors: Xuan Ren, Qi Chen, Lingqiao Liu,
- Abstract要約: 細調整された大言語モデル(LLM)は、通常、大量の入出力ペアを生成することに依存する。
近年の研究では、これらのトレーニングアウトプットの生成が微調整モデルの性能に大きく影響を与えることが示されている。
本稿では,特定の目標LLMに対する適合性を推定するために,生成したデータの小さなサブセットを評価する,スケーラブルな近似手法を提案する。
- 参考スコア(独自算出の注目度): 28.717420152590204
- License:
- Abstract: Fine-tuning large language models (LLMs) typically relies on producing large sets of input-output pairs. Yet for a given question, there can be many valid outputs. In practice, these outputs are often derived by distilling knowledge from teacher models, and they can vary depending on the specific teacher model or prompting strategy employed. Recent findings show that how these training outputs are generated can significantly affect the performance of the fine-tuned model, raising an important question: how do we pick the best data generation method from among numerous possibilities? Rather than exhaustively training and evaluating on each candidate, this paper proposes a scalable approximate method that assesses a small subset of generated data to estimate its suitability for a specific target LLM. Our central idea is that effective outputs should be familiar to the target LLM. While previous work measures familiarity with perplexity, we find that perplexity might be suboptimal in characterizing 'familiarity' through theoretical analysis and practical observations. To address this, we introduce self-aligned perplexity, a novel metric capturing how closely candidate outputs adhere to the target LLM's own style and reasoning patterns. In this way, we can identify the most effective generation strategy on a small sample, then apply it to produce the complete training set. We demonstrate that training on data generated by the chosen method yields significant improvements across diverse reasoning-focused benchmarks.
- Abstract(参考訳): 細調整された大言語モデル(LLM)は、通常、大量の入出力ペアを生成することに依存する。
しかし、与えられた質問に対して、有効なアウトプットが多数存在する。
実際には、これらのアウトプットは、しばしば教師モデルから知識を抽出することによって導き出され、特定の教師モデルや採用の促進戦略によって異なる可能性がある。
最近の研究では、これらのトレーニングアウトプットの生成が微調整モデルの性能に大きく影響を与えることが示されており、重要な疑問が提起されている。
本稿では,各候補を徹底的に学習し,評価する代わりに,生成したデータの小さなサブセットを評価し,特定の目標LLMに対する適合性を推定する,スケーラブルな近似手法を提案する。
我々の中心的な考え方は、効果的な出力は目標のLSMに慣れるべきである、ということです。
従来の研究はパープレクティリティに精通しているものの、理論的解析と実践的な観察を通して「ファミリティ」を特徴づける上で、パープレクティリティは最適以下である可能性がある。
そこで本研究では,自己整合性(self-aligned perplexity, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性, 自己整合性)について述べる。
このようにして、小さなサンプル上で最も効果的な生成戦略を特定し、それを完全なトレーニングセットを作成するために適用することができる。
選択した手法によって生成されたデータに対するトレーニングは、多種多様な推論に焦点をあてたベンチマークにおいて大きな改善をもたらすことを実証する。
関連論文リスト
- Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
我々は,既存の勾配法を改良し,大規模に効果的に機能させる。
我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Enhancing Subtask Performance of Multi-modal Large Language Model [12.033301861738952]
MLLM(Multi-modal Large Language Model)は、マルチモーダルデータを扱う能力を持つLarge Language Model(LLM)から拡張されたモデルである。
本研究では、異なる評価手法に基づいて、同一サブタスクに焦点を当てた複数の事前学習モデルを選択する。
同じサブタスクに対する複数の事前学習モデルの結果をLLMを用いて比較し、そのサブタスクの結果として最もよい結果を選択する。
論文 参考訳(メタデータ) (2023-08-31T05:37:21Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。