論文の概要: Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity
- arxiv url: http://arxiv.org/abs/2501.14315v1
- Date: Fri, 24 Jan 2025 08:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 20:40:39.676326
- Title: Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity
- Title(参考訳): 明快なマインド:LLMの微調整ロバストとは何か?
- Authors: Chao-Chung Wu, Zhi Rui Tam, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen,
- Abstract要約: LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
- 参考スコア(独自算出の注目度): 61.48338027901318
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Maintaining consistent model performance across domains is a fundamental challenge in machine learning. While recent work has explored using LLM-generated data for fine-tuning, its impact on cross-domain generalization remains poorly understood. In this paper, we present a systematic analysis revealing that fine-tuning with LLM-generated data not only improves target task performance but also reduces out-of-domain (OOD) degradation compared to fine-tuning with ground truth data. Through analyzing the data sequence in tasks of various domains, we demonstrate that this enhanced OOD robustness stems from a reduced prevalence of high perplexity tokens in LLM-generated sequences. Following this hypothesis we showed that masking high perplexity tokens in ground truth training data also achieves similar OOD preservation comparable to using LLM-generated data. Extensive experiments across diverse model architectures and scales, including Gemma2-2B, Mistral-7B and Llama3-8B, corroborate the consistency of our findings. To the best of our knowledge, this work provides the first mechanistic explanation for the superior OOD robustness conferred by LLM-generated training data, offering valuable insights for developing more robust fine-tuning strategies.
- Abstract(参考訳): ドメイン間の一貫性のあるモデルパフォーマンスを維持することは、機械学習における根本的な課題である。
最近の研究は、LLM生成データによる微調整について検討しているが、ドメイン間の一般化への影響はよく分かっていない。
本稿では,LLM生成データによる微調整が目標タスク性能を向上するだけでなく,地上の真理データによる微調整に比べてドメイン外劣化(OOD)を低減することを明らかにする。
各種領域のタスクにおけるデータシーケンスを解析することにより、この強化されたOODロバスト性は、LCM生成シーケンスにおける高いパープレキシティトークンの出現率の低下に起因することを実証する。
この仮説に従えば、地上の真実学習データにおける高難易度トークンのマスキングもまた、LLM生成データと同等のOOD保存を達成できることを示した。
Gemma2-2B,Mistral-7B,Llama3-8Bなど,多種多様なモデルアーキテクチャとスケールにわたる大規模な実験は,我々の発見の一貫性を裏付けるものである。
我々の知る限り、この研究は、LLM生成トレーニングデータによって与えられる優れたOODロバスト性に関する最初の力学的な説明を提供し、より堅牢な微調整戦略を開発するための貴重な洞察を提供する。
関連論文リスト
- Enhancing LLM Robustness to Perturbed Instructions: An Empirical Study [8.827173113748701]
ダウンストリーム性能を著しく低下させるタスク特化命令の文字・単語レベルの編集について検討した。
平均的に、自己否定は、代替戦略よりも大幅に高いパフォーマンス向上を達成することが分かっています。
論文 参考訳(メタデータ) (2025-04-03T16:17:56Z) - An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [5.064778712920176]
LLM(Large Language Models)は、コード生成によるデータサイエンスタスクの可能性を示している。
LLM生成データサイエンスを自動評価・実施する新しいアナリスト・インスペクタフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - ThinkBench: Dynamic Out-of-Distribution Evaluation for Robust LLM Reasoning [61.750373974799366]
ThinkBenchは、大規模言語モデル(LLM)の評価フレームワークである。
推論モデルと非推論モデルの評価を統一する。
ThinkBenchは、LLMの信頼性評価を効果的に提供し、データ汚染の影響を低減する。
論文 参考訳(メタデータ) (2025-02-22T15:41:51Z) - Understanding and Mitigating the Bias Inheritance in LLM-based Data Augmentation on Downstream Tasks [24.706895491806794]
この研究は、バイアス継承を理解し、分析し、緩和する最初の体系的な研究である。
6種類のバイアスが、異なるバイアス比でどのように現れるかを分析する。
トークンベース,マスクベース,損失ベースの3つの緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-02-06T15:20:58Z) - RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception [20.01853641155509]
自然言語命令に基づくアプリケーション固有の視覚的グラウンドニングのための視覚言語モデル(VLM)は、学習可能な自律システムにおいて最も一般的なアプローチの1つである。
本稿では, 強化学習(RL)エージェントと統合することにより, VLMファインチューニングを改善するための新しい一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-31T04:30:42Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [37.14344322899091]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
筆者らは,自信に基づく重み付き投票を伴う,数発の学習用LLM"ツリー"の"フォレスト"を導入した,新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、高品質な関連する隣り合うエントリを識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models [16.67999382790238]
大規模言語モデル(LLM)は、様々なドメインに革命をもたらしたが、そのユーティリティには、事前トレーニング中に埋め込まれた時代遅れまたは問題のある知識に関する課題が伴っている。
本稿では, ゼロから再学習することなく, 新たな知識を効率的に統合しながら, 問題や時代遅れの情報を解き放つため, LLMを変更するという課題に対処する。
Llama2-7B を用いて,LLM 手術は未学習のセットを忘れて,更新セットの精度が20%向上し,保持セットの性能が維持できることを実証した。
論文 参考訳(メタデータ) (2024-09-19T19:07:01Z) - Unveiling the Vulnerability of Private Fine-Tuning in Split-Based Frameworks for Large Language Models: A Bidirectionally Enhanced Attack [20.727726850786386]
BiSRは、スプリットラーニング(SL)の前方および後方伝播プロセスの両方をターゲットにした最初のデータ再構成攻撃である。
SLの前方および後方伝播過程を標的とした最初のデータ再構成攻撃(DRA)であるBiSRを提案する。
論文 参考訳(メタデータ) (2024-09-02T06:01:20Z) - Enhancing Temporal Understanding in LLMs for Semi-structured Tables [50.59009084277447]
我々は、大規模言語モデル(LLM)の特定の限界を特定するために、時間的データセットの包括的な分析を行う。
調査の結果,時間的時間的質問応答に特化したデータセットであるTempTabQAが強化された。
我々は,この領域におけるLLM機能を強化するために,新しいアプローチC.L.E.A.R.を導入する。
論文 参考訳(メタデータ) (2024-07-22T20:13:10Z) - Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。
LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文 参考訳(メタデータ) (2024-07-16T09:05:31Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - PISTOL: Dataset Compilation Pipeline for Structural Unlearning of LLMs [31.16117964915814]
訓練済みまたは微調整済みのモデルに格納された特定のデータを消去しようとする機械学習は、LLMにとって重要な保護措置として登場した。
構造的アンラーニング手法の開発を容易にするため,マルチシナリオデータセットをコンパイルするパイプラインであるPISTOLを提案する。
Llama2-7BモデルとMistral-7Bモデルの両方で4つの異なる未学習手法を用いてベンチマークを行う。
論文 参考訳(メタデータ) (2024-06-24T17:22:36Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - How Good Are LLMs at Out-of-Distribution Detection? [13.35571704613836]
アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。
本稿では,大規模言語モデル(LLM)の領域におけるOOD検出の先駆的実証研究について述べる。
論文 参考訳(メタデータ) (2023-08-20T13:15:18Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。