Fugu-MT 論文翻訳(概要): Rethinking Data Selection for Supervised Fine-Tuning

論文の概要: Rethinking Data Selection for Supervised Fine-Tuning

arxiv url: http://arxiv.org/abs/2402.06094v1
Date: Thu, 8 Feb 2024 23:02:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 18:30:54.483881
Title: Rethinking Data Selection for Supervised Fine-Tuning
Title（参考訳）: 修正ファインチューニングのためのデータ選択の再考
Authors: Ming Shen
Abstract要約: 教師付き微調整(SFT)は、大きな言語モデルと人間を協調させる重要な技術として登場した。近年の研究では、SFTのデータ選択の重要性が示されており、高品質で多様なデータセットのサブセットによる微調整により、下流のパフォーマンスが向上している。 SFTは表面的であるため、データ品質や多様性ではなく、人間のようなインタラクションを反映することに焦点を当てるべきである。
参考スコア（独自算出の注目度）: 2.0351001426606095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although supervised finetuning (SFT) has emerged as an essential technique to align large language models with humans, it is considered superficial, with style learning being its nature. At the same time, recent works indicate the importance of data selection for SFT, showing that finetuning with high-quality and diverse subsets of the original dataset leads to superior downstream performance. In this work, we rethink the intuition behind data selection for SFT. Considering SFT is superficial, we propose that essential demonstrations for SFT should focus on reflecting human-like interactions instead of data quality or diversity. However, it is not straightforward to directly assess to what extent a demonstration reflects human styles. Towards an initial attempt in this direction, we find selecting instances with long responses is surprisingly more effective for SFT than utilizing full datasets or instances selected based on quality and diversity. We hypothesize that such a simple heuristic implicitly mimics a crucial aspect of human-style conversation: detailed responses are usually more helpful.
Abstract（参考訳）: 教師付きファインタニング(SFT)は、大きな言語モデルと人間を協調させる重要な技術として登場したが、その性質はスタイル学習である。同時に、最近の研究は、SFTにおけるデータ選択の重要性を示し、元のデータセットの高品質で多様なサブセットによる微調整により、下流のパフォーマンスが向上することを示している。本研究では,SFTのデータ選択の背景にある直観を再考する。 SFTは表面的であるため、データ品質や多様性ではなく、人間のようなインタラクションを反映することに焦点を当てるべきである。しかし、デモンストレーションが人間のスタイルをどの程度反映しているかを直接評価するのは簡単ではない。この方向への最初の試みでは、品質と多様性に基づいて選択された完全なデータセットやインスタンスを利用するよりも、長い応答を持つインスタンスを選択する方が驚くほど効果的であることがわかった。このような単純なヒューリスティックは、人間スタイルの会話の重要な側面を暗黙的に模倣していると仮定する。

関連論文リスト

Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality [10.74213785908381]
Supervised Fine-tuning (SFT) は、大きな言語モデルを人間の指示や値に合わせるための重要なステップである。コード生成、数学的推論、汎用ドメインタスクなど、さまざまなデータセットに基づいて、幅広いベースモデルをトレーニングしました。我々は、これらの1000以上のSFTモデルとベンチマーク結果をリリースし、さらなる研究を加速する。
論文参考訳（メタデータ） (2025-06-17T16:13:15Z)
Robust Transmission of Punctured Text with Large Language Model-based Recovery [3.7823924368349133]
本稿では,少数の文字を選択・送信し,受信側で欠落した文字を復元する新しいテキスト送信モデルを提案する。また,LLM回復性能を高めるために送信文字を選択する新しい重要文字抽出器 (ICE) を提案する。提案モデルでは,異なるデータセットやタスクにまたがるロバストな性能を示し,低信号対雑音比条件下で従来のビットベースの通信よりも優れた性能を示す。
論文参考訳（メタデータ） (2025-03-19T02:16:08Z)
From Demonstrations to Rewards: Alignment Without Explicit Human Preferences [55.988923803469305]
本稿では,逆強化学習原理に基づく学習アライメントの新たな視点を提案する。大規模な選好データに頼る代わりに、デモデータから報酬モデルを直接学習する。
論文参考訳（メタデータ） (2025-03-15T20:53:46Z)
Discriminative Finetuning of Generative Large Language Models without Reward Models and Preference Data [61.463946150106054]
Supervised Fine-tuning (SFT) と Prefery Optimization (PO) は、事前訓練された大規模言語モデル(LLM)を改善するための標準となっている。本稿では、嗜好データを必要としない新しいアプローチであるDFTを紹介する。 i) 答えの識別可能性を明確にモデル化した微調整LDMの識別確率フレームワーク、(ii) この識別確率を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範囲な実験、そして、SFTよりも優れた性能を達成し、そうでなければ同等である。
論文参考訳（メタデータ） (2025-02-25T22:38:55Z)
Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。 PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文参考訳（メタデータ） (2024-12-17T12:49:14Z)
Rethinking Data Selection at Scale: Random Selection is Almost All You Need [39.14807071480125]
教師付き微調整は、大規模言語モデルと人間の指示の整合に不可欠である。既存のデータ選択技術の多くは、小規模なデータプール用に設計されている。
論文参考訳（メタデータ） (2024-10-12T02:48:34Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [26.196705232699884]
直感的ファインチューニング(IFT)を導入し,SFTと優先度最適化をひとつのプロセスに統合する。 IFTは、SFTのシーケンシャルなレシピやいくつかの典型的なPreference Optimizationメソッドと相容れないか、それ以上に優れている。説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。
論文参考訳（メタデータ） (2024-05-20T08:23:28Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。 Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文参考訳（メタデータ） (2023-12-31T21:18:16Z)
LoBaSS: Gauging Learnability in Supervised Fine-tuning Data [64.27898739929734]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。 SFTデータ選択における新しい次元:学習可能性について紹介する。そこで我々はLoss Based SFT Data Selection (LoBaSS) 法を提案する。
論文参考訳（メタデータ） (2023-10-16T07:26:24Z)
How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文参考訳（メタデータ） (2023-10-09T07:56:16Z)
Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。 DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文参考訳（メタデータ） (2022-12-11T06:16:14Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。