論文の概要: Uncertainty-Aware Gradient Signal-to-Noise Data Selection for Instruction Tuning
- arxiv url: http://arxiv.org/abs/2601.13697v1
- Date: Tue, 20 Jan 2026 07:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.210797
- Title: Uncertainty-Aware Gradient Signal-to-Noise Data Selection for Instruction Tuning
- Title(参考訳): インストラクションチューニングのための不確かさを意識した信号対雑音データ選択
- Authors: Zhihang Yuan, Chengyu Yue, Long Huang, Litu Ou, Lei Shi,
- Abstract要約: 現代の命令データセットは、大きく、騒々しく、冗長であり、完全なデータの微調整はコストが高く、不要である。
本稿では,客観的な不確実性を考慮したデータ選択フレームワークであるGRADingを提案する。
本手法は, マルチアズ・ア・ジャッジ評価や人的評価において, ランダムなサブセットと強いベースラインとを一致させるか, あるいは超える。
- 参考スコア(独自算出の注目度): 16.648609404000428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning is a standard paradigm for adapting large language models (LLMs), but modern instruction datasets are large, noisy, and redundant, making full-data fine-tuning costly and often unnecessary. Existing data selection methods either build expensive gradient datastores or assign static scores from a weak proxy, largely ignoring evolving uncertainty, and thus missing a key source of LLM interpretability. We propose GRADFILTERING, an objective-agnostic, uncertainty-aware data selection framework that utilizes a small GPT-2 proxy with a LoRA ensemble and aggregates per-example gradients into a Gradient Signal-to-Noise Ratio (G-SNR) utility. Our method matches or surpasses random subsets and strong baselines in most LLM-as-a-judge evaluations as well as in human assessment. Moreover, GRADFILTERING-selected subsets converge faster than competitive filters under the same compute budget, reflecting the benefit of uncertainty-aware scoring.
- Abstract(参考訳): インストラクションチューニングは、大きな言語モデル(LLM)を適用するための標準パラダイムであるが、現代の命令データセットは、大きく、騒々しく、冗長であり、完全なデータの微調整はコストがかかり、しばしば不要である。
既存のデータ選択方法は、高価な勾配データストアを構築するか、弱いプロキシから静的スコアを割り当てる。
本稿では,GRADFILTERingを提案する。GRADFILTERINGは,LORAアンサンブルを併用した小さなGPT-2プロキシを利用して,G-SNR(Gradient Signal-to-Noise Ratio)ユーティリティにサンプルごとの勾配を集約する,客観的かつ不確実性を考慮したデータ選択フレームワークである。
我々の手法は、ほとんどのLCM-as-a-judge評価と人間の評価において、ランダムなサブセットと強いベースラインに一致または超えている。
さらに、GRADFILTERING選択されたサブセットは同じ計算予算の下で競合フィルタよりも早く収束し、不確実性を考慮したスコアリングの利点を反映する。
関連論文リスト
- LAMDAS: LLM as an Implicit Classifier for Domain-specific Data Selection [32.35731324386828]
大きな言語モデル(LLM)を特定のドメインに適用することは、しばしば重大なボトルネックに直面します。
類似性に基づく直接最適化手法として分類された既存の手法は、これらの目標を同時に達成するのに苦労する。
LAMDASは,学習済みLLM自体を暗黙の分類器として活用する新しい手法である。
論文 参考訳(メタデータ) (2025-09-08T10:30:58Z) - LLM Unlearning using Gradient Ratio-Based Influence Estimation and Noise Injection [0.0]
既存の経験的手法は、ローカライゼーションが不十分なため、不完全な忘れ物や意図しない無関係な知識の劣化をもたらすことが多い。
GRINは、忘れデータの記憶に最も寄与するパラメータを特定するための、勾配比に基づく新しい指標を導入した。
そして、微調整の前にこれらのパラメータに選択的ノイズ注入を行い、モデルユーティリティを維持しながら学習性能を向上させる。
論文 参考訳(メタデータ) (2025-08-08T17:15:32Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Automated classification of pre-defined movement patterns: A comparison
between GNSS and UWB technology [55.41644538483948]
リアルタイム位置情報システム(RTLS)は、人間の動きパターンからデータを収集することができる。
本研究の目的は、小さな領域における人間の動きパターンを分類する自動化された枠組みを設計し、評価することである。
論文 参考訳(メタデータ) (2023-03-10T14:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。