論文の概要: On Representation Redundancy in Large-Scale Instruction Tuning Data Selection
- arxiv url: http://arxiv.org/abs/2602.13773v1
- Date: Sat, 14 Feb 2026 13:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.415419
- Title: On Representation Redundancy in Large-Scale Instruction Tuning Data Selection
- Title(参考訳): 大規模インストラクションチューニングデータ選択における表現冗長性について
- Authors: Youwei Shu, Shaomian Zheng, Dingnan Jin, Wenjie Qu, Ziyao Guo, Qing Cui, Jun Zhou, Jiaheng Zhang,
- Abstract要約: 意味表現類似性のレンズによる命令調整データ選択について検討する。
圧縮表現データ選択(CRDS, Compressed Representation Data Selection)は2種類の新しいフレームワークである。
実験により、両変種はデータ品質を大幅に向上し、最先端の表現ベース選択法を一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 20.850719141827664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality is a crucial factor in large language models training. While prior work has shown that models trained on smaller, high-quality datasets can outperform those trained on much larger but noisy or low-quality corpora, systematic methods for industrial-scale data selection in instruction tuning remain underexplored. In this work, we study instruction-tuning data selection through the lens of semantic representation similarity and identify a key limitation of state-of-the-art LLM encoders: they produce highly redundant semantic embeddings. To mitigate this redundancy, we propose Compressed Representation Data Selection (CRDS), a novel framework with two variants. CRDS-R applies Rademacher random projection followed by concatenation of transformer hidden-layer representations, while CRDS-W employs whitening-based dimensionality reduction to improve representational quality. Experimental results demonstrate that both variants substantially enhance data quality and consistently outperform state-of-the-art representation-based selection methods. Notably, CRDS-W achieves strong performance using only 3.5% of the data, surpassing the full-data baseline by an average of 0.71% across four datasets. Our code is available at https://github.com/tdano1/CRDS.
- Abstract(参考訳): データ品質は、大規模言語モデルのトレーニングにおいて重要な要素である。
以前の研究で、より小さくて高品質なデータセットでトレーニングされたモデルは、より大きく、ノイズの多い、または低品質なコーパスでトレーニングされたモデルよりも優れていることが示されているが、インストラクションチューニングにおける産業規模のデータ選択の体系的手法は、まだ探索されていない。
本研究では,意味表現類似性のレンズによる命令調整データの選択について検討し,最先端のLLMエンコーダの鍵となる制限を同定し,高度に冗長な意味的埋め込みを生成する。
この冗長性を緩和するために,2つの変種を持つ新しいフレームワークである圧縮表現データ選択(CRDS)を提案する。
CRDS-RはRademacherランダムプロジェクションを適用し、続いて変換器の隠蔽層表現を結合し、CRDS-Wはホワイトニングに基づく次元性低減を用いて表現品質を向上させる。
実験により、両変種はデータ品質を大幅に向上し、最先端の表現ベース選択法を一貫して上回っていることが示された。
特にCRDS-Wはデータの3.5%しか使用せず、全データのベースラインを4つのデータセットで平均0.71%上回るパフォーマンスを実現している。
私たちのコードはhttps://github.com/tdano1/CRDSで利用可能です。
関連論文リスト
- Exploring Instruction Data Quality for Explainable Image Quality Assessment [58.345719195248314]
説明可能なIQAのための指導調律データセットにおけるデータ品質の役割について検討する。
データセットのサブセットをランダムに選択することで、インストラクションチューニングデータセット全体のトレーニングよりも優れた結果が得られます。
本稿では,クラスタリング特徴抽出,クラスタクォータ割り当て,クラスタサンプリング戦略の3段階からなるクラスタリングに基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-04T17:12:54Z) - RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - When Dynamic Data Selection Meets Data Augmentation [10.217776379089093]
動的データ選択と拡張を統一する新しいオンラインデータトレーニングフレームワークを提案する。
提案手法は,各サンプルの局所密度と多モーダル意味一貫性の結合分布を推定し,拡張に適したサンプルのターゲット選択を可能にする。
提案手法は, 耐雑音性を高め, モデルロバスト性を向上し, 実世界のシナリオにおける実用性を向上する。
論文 参考訳(メタデータ) (2025-05-02T11:38:48Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Improving Data Efficiency via Curating LLM-Driven Rating Systems [30.233724785974143]
データ選択のための多変量対応スコアキュレーション手法DS2を紹介する。
スコア遷移行列を通じてエラーパターンを体系的にモデル化することにより、DS2はLSMベースのスコアを補正し、選択したデータサンプルの多様性を促進する。
このアプローチは、キュレートされたサブセット(元のデータセットのわずか3.3%)が、さまざまなマシンアライメントベンチマークで、フルスケールデータセット(300kサンプル)より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T10:07:55Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。