論文の概要: Rethinking Data Selection for Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2402.06094v1
- Date: Thu, 8 Feb 2024 23:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:30:54.483881
- Title: Rethinking Data Selection for Supervised Fine-Tuning
- Title(参考訳): 修正ファインチューニングのためのデータ選択の再考
- Authors: Ming Shen
- Abstract要約: 教師付き微調整(SFT)は、大きな言語モデルと人間を協調させる重要な技術として登場した。
近年の研究では、SFTのデータ選択の重要性が示されており、高品質で多様なデータセットのサブセットによる微調整により、下流のパフォーマンスが向上している。
SFTは表面的であるため、データ品質や多様性ではなく、人間のようなインタラクションを反映することに焦点を当てるべきである。
- 参考スコア(独自算出の注目度): 2.0351001426606095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although supervised finetuning (SFT) has emerged as an essential technique to
align large language models with humans, it is considered superficial, with
style learning being its nature. At the same time, recent works indicate the
importance of data selection for SFT, showing that finetuning with high-quality
and diverse subsets of the original dataset leads to superior downstream
performance. In this work, we rethink the intuition behind data selection for
SFT. Considering SFT is superficial, we propose that essential demonstrations
for SFT should focus on reflecting human-like interactions instead of data
quality or diversity. However, it is not straightforward to directly assess to
what extent a demonstration reflects human styles. Towards an initial attempt
in this direction, we find selecting instances with long responses is
surprisingly more effective for SFT than utilizing full datasets or instances
selected based on quality and diversity. We hypothesize that such a simple
heuristic implicitly mimics a crucial aspect of human-style conversation:
detailed responses are usually more helpful.
- Abstract(参考訳): 教師付きファインタニング(SFT)は、大きな言語モデルと人間を協調させる重要な技術として登場したが、その性質はスタイル学習である。
同時に、最近の研究は、SFTにおけるデータ選択の重要性を示し、元のデータセットの高品質で多様なサブセットによる微調整により、下流のパフォーマンスが向上することを示している。
本研究では,SFTのデータ選択の背景にある直観を再考する。
SFTは表面的であるため、データ品質や多様性ではなく、人間のようなインタラクションを反映することに焦点を当てるべきである。
しかし、デモンストレーションが人間のスタイルをどの程度反映しているかを直接評価するのは簡単ではない。
この方向への最初の試みでは、品質と多様性に基づいて選択された完全なデータセットやインスタンスを利用するよりも、長い応答を持つインスタンスを選択する方が驚くほど効果的であることがわかった。
このような単純なヒューリスティックは、人間スタイルの会話の重要な側面を暗黙的に模倣していると仮定する。
関連論文リスト
- Rethinking Data Selection at Scale: Random Selection is Almost All You Need [39.14807071480125]
教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。
既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
論文 参考訳(メタデータ) (2024-10-12T02:48:34Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [26.196705232699884]
直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。
IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。
説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning
Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。
Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。
本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文 参考訳(メタデータ) (2023-12-31T21:18:16Z) - LoBaSS: Gauging Learnability in Supervised Fine-tuning Data [64.27898739929734]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。
SFTデータ選択における新しい次元:学習可能性について紹介する。
そこで我々はLoss Based SFT Data Selection (LoBaSS) 法を提案する。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z) - How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。