論文の概要: Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs
- arxiv url: http://arxiv.org/abs/2602.10388v1
- Date: Wed, 11 Feb 2026 00:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.356392
- Title: Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs
- Title(参考訳): LLMの特徴空間における多変量データの合成
- Authors: Zhongzhi Li, Xuansheng Wu, Yijiang Li, Lijie Hu, Ninghao Liu,
- Abstract要約: 本稿では、解釈可能な機能空間におけるデータの多様性を測定する機能活性化カバレッジ(FAC)を紹介する。
この指標に基づいて,FAC合成という多様性駆動型データ合成フレームワークを提案する。
実験により,本手法は様々なタスクにおけるデータ多様性とダウンストリーム性能の両方を一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 39.84010804274527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The diversity of post-training data is critical for effective downstream performance in large language models (LLMs). Many existing approaches to constructing post-training data quantify diversity using text-based metrics that capture linguistic variation, but such metrics provide only weak signals for the task-relevant features that determine downstream performance. In this work, we introduce Feature Activation Coverage (FAC) which measures data diversity in an interpretable feature space. Building upon this metric, we further propose a diversity-driven data synthesis framework, named FAC Synthesis, that first uses a sparse autoencoder to identify missing features from a seed dataset, and then generates synthetic samples that explicitly reflect these features. Experiments show that our approach consistently improves both data diversity and downstream performance on various tasks, including instruction following, toxicity detection, reward modeling, and behavior steering. Interestingly, we identify a shared, interpretable feature space across model families (i.e., LLaMA, Mistral, and Qwen), enabling cross-model knowledge transfer. Our work provides a solid and practical methodology for exploring data-centric optimization of LLMs.
- Abstract(参考訳): 学習後のデータの多様性は、大規模言語モデル(LLM)における効果的な下流性能にとって重要である。
学習後データを構築するための既存の多くのアプローチは、言語的変化を捉えるテキストベースのメトリクスを使用して多様性を定量化するが、これらのメトリクスは下流のパフォーマンスを決定するタスク関連機能に対して弱い信号のみを提供する。
本稿では,解釈可能な機能空間におけるデータの多様性を計測する機能活性化カバレッジ(FAC)を紹介する。
この指標に基づいて、まず、スパースオートエンコーダを用いて、シードデータセットから欠落した特徴を識別し、これらの特徴を明示的に反映した合成サンプルを生成する、多様性駆動型データ合成フレームワークであるFAC Synthesisを提案する。
実験により,本手法は命令追従,毒性検出,報酬モデリング,行動ステアリングなど,様々なタスクにおけるデータ多様性と下流性能を一貫して改善することが示された。
興味深いことに、モデルファミリ(LLaMA、Mistral、Qwen)間で共有可能な解釈可能な特徴空間を特定し、モデル間の知識伝達を可能にする。
我々の研究は、LLMのデータ中心最適化を探求するための、しっかりとした実践的な方法論を提供する。
関連論文リスト
- Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標であるNovellSumを提案する。
シミュレーションデータと実世界のデータの両方の実験により、NovellSumは正確に多様性の変動を捉え、命令調整されたモデルの性能と0.97の相関を達成している。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - Diversity as a Reward: Fine-Tuning LLMs on a Mixture of Domain-Undetermined Data [54.3895971080712]
多様なデータセットを使用した細調整された大規模言語モデル(LLM)は、さまざまな領域にわたる全体的なパフォーマンス向上に不可欠である。
本稿では,LLMに2つのアイデンティティを与える新しい手法を提案する。多様性報酬に基づいてデータを認知的に探索し,選択する出力モデルと,選択したデータに調整する入力モデルである。
論文 参考訳(メタデータ) (2025-02-05T17:21:01Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。