論文の概要: Diversity-driven Data Selection for Language Model Tuning through Sparse Autoencoder
- arxiv url: http://arxiv.org/abs/2502.14050v1
- Date: Wed, 19 Feb 2025 19:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:14.145482
- Title: Diversity-driven Data Selection for Language Model Tuning through Sparse Autoencoder
- Title(参考訳): スパースオートエンコーダを用いた言語モデルチューニングのための多様性駆動型データ選択
- Authors: Xianjun Yang, Shaoliang Nie, Lijuan Liu, Suchin Gururangan, Ujjwal Karn, Rui Hou, Madian Khabsa, Yuning Mao,
- Abstract要約: データ多様性対策の課題に取り組むためにスパースオートエンコーダを提案する。
我々は、選択したデータに基づいてトレーニングされたモデルが、モデル能力の点で他の手法より優れていることを実験的に証明した。
- 参考スコア(独自算出の注目度): 45.64824340565906
- License:
- Abstract: Current pre-trained large language models typically need instruction tuning to align with human preferences. However, instruction tuning data is often quantity-saturated due to the large volume of data collection and fast model iteration, leaving coreset data selection important but underexplored. On the other hand, existing quality-driven data selection methods such as LIMA (NeurIPS 2023 (Zhou et al., 2024)) and AlpaGasus (ICLR 2024 (Chen et al.)) generally ignore the equal importance of data diversity and complexity. In this work, we aim to design a diversity-aware data selection strategy and creatively propose using sparse autoencoders to tackle the challenge of data diversity measure. In addition, sparse autoencoders can also provide more interpretability of model behavior and explain, e.g., the surprising effectiveness of selecting the longest response (ICML 2024 (Zhao et al.)). Using effective data selection, we experimentally prove that models trained on our selected data can outperform other methods in terms of model capabilities, reduce training cost, and potentially gain more control over model behaviors.
- Abstract(参考訳): 現在の訓練済みの大規模言語モデルでは、人間の好みに合わせて命令のチューニングを必要とするのが一般的である。
しかし、命令チューニングデータは大量のデータ収集と高速なモデル反復のため、しばしば量的に飽和しており、コアセットデータの選択は重要だが探索不足である。
一方、LIMA(NeurIPS 2023 (Zhou et al , 2024))やAlpaGasus (ICLR 2024 (Chen et al ))のような既存の品質駆動型データ選択手法は、データ多様性と複雑性の同等の重要性を無視する。
本研究では,多様性を意識したデータ選択戦略を設計し,データ多様性対策の課題に取り組むためにスパースオートエンコーダを創造的に提案することを目的とする。
さらに、スパースオートエンコーダはモデルの振る舞いをより解釈しやすくし、例えば、最長応答を選択する驚くべき効果(ICML 2024 (Zhao et al ))を説明できる。
有効なデータ選択を用いることで、選択したデータに基づいてトレーニングしたモデルが、モデル能力の点で他の手法よりも優れ、トレーニングコストを低減し、モデル動作をより制御できることを実験的に証明する。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [38.39395973523944]
本稿では,データ選択のための3段階のスキームを提案し,既存の作品のレビューを行う。
データ特化ラベルとモデル特化ラベルを併用したよりターゲット的な手法の方が効率が良いことが判明した。
論文 参考訳(メタデータ) (2024-06-20T08:58:58Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Model-specific Data Subsampling with Influence Functions [37.64859614131316]
トレーニングポイントが様々な影響を持つ場合、ランダムサンプリングよりも優れたモデル固有データサブサンプリング戦略を開発する。
具体的には、影響関数を活用して、選択戦略をガイドし、理論的に証明し、我々のアプローチが素早く高品質なモデルを選択することを実証する。
論文 参考訳(メタデータ) (2020-10-20T12:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。