論文の概要: Two-Stage Optimizer-Aware Online Data Selection for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.00001v1
- Date: Sun, 08 Mar 2026 21:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.174789
- Title: Two-Stage Optimizer-Aware Online Data Selection for Large Language Models
- Title(参考訳): 大規模言語モデルのための2段階最適化によるオンラインデータ選択
- Authors: Fangxin Wang, Peyman Baghershahi, Langzhou He, Henry Peng Zou, Sourav Medya, Philip S. Yu,
- Abstract要約: 我々は,大規模言語モデルの微調整において,勾配に基づくオンラインデータ選択と重み付けのための原則付きフレームワークを提案する。
私たちのキーとなる考え方は、オンライン選択を静的なサンプルランキングではなく、次のターゲット指向のアップデートを州の下で形作ることです。
実験の結果,本手法は既存のオンラインデータ選択ベースラインに対するコンバージェンスとダウンストリームのパフォーマンスを,同じデータ予算下で一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 49.576993784867035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based data selection offers a principled framework for estimating sample utility in large language model (LLM) fine-tuning, but existing methods are mostly designed for offline settings. They are therefore less suited to online fine-tuning, where data arrives sequentially, sample utility is step-dependent, and the effective update geometry is shaped by adaptive optimizers. We propose an optimizer-aware framework for gradient-based online data selection and reweighting in LLM fine-tuning. Our key idea is to view online selection not as static sample ranking, but as shaping the next target-oriented update under the optimizer state. We formulate this as an optimizer-aware update-matching problem, establish its connection to second-order target utility, and show why subset-level construction must account for interactions and redundancy among selected samples. Based on this view, we develop a two-stage Filter-then-Weight algorithm that first filters geometrically useful candidates and then optimizes their coefficients. To make the framework practical for LLMs, we introduce a factorized outer-product gradient representation and optimized matrix computations for long-context data. Experiments show that our method consistently improves convergence and downstream performance over existing online data selection baselines under the same data budget.
- Abstract(参考訳): グラディエントベースのデータ選択は、大規模な言語モデル(LLM)の微調整においてサンプルユーティリティを推定するための原則化されたフレームワークを提供するが、既存のメソッドは主にオフライン設定用に設計されている。
そのため、データは順次到着し、サンプルユーティリティはステップ依存であり、効果的な更新ジオメトリは適応オプティマイザによって形作られます。
LLMファインチューニングにおける勾配に基づくオンラインデータ選択と再重み付けのためのオプティマイザ対応フレームワークを提案する。
私たちのキーとなる考え方は、オンライン選択を静的なサンプルランキングではなく、オプティマイザ状態の下で次のターゲット指向のアップデートを形作ることです。
我々はこれをオプティマイザ対応更新マッチング問題として定式化し、二階目標ユーティリティとの接続を確立するとともに、サブセットレベルの構造が選択したサンプル間の相互作用や冗長性を考慮しなければならない理由を示す。
この観点から,まず幾何学的に有用な候補をフィルタし,その係数を最適化する2段フィルタ-then-Weightアルゴリズムを開発した。
LLMのフレームワークを実用化するために、長文データに対する分解外積勾配表現と最適化行列計算を導入する。
実験の結果,本手法は既存のオンラインデータ選択ベースラインに対するコンバージェンスとダウンストリームのパフォーマンスを,同じデータ予算下で一貫して改善することが示された。
関連論文リスト
- A Unified Understanding of Offline Data Selection and Online Self-refining Generation for Post-training LLMs [55.931369468485464]
最適化の観点から、オフラインデータ選択とオンラインセルフリファインディング世代に取り組みます。
両レベルデータ選択フレームワークの有効性を理論的に初めて実証した。
論文 参考訳(メタデータ) (2025-11-26T04:48:33Z) - Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization [32.84452172765487]
大きな言語モデルと人間の価値観と意図を整合させるためには、優先度最適化が不可欠である。
既存の手法では、静的または分離されたオンラインサンプリング戦略を用いて、このギャップを減らそうとしている。
モデル学習とデータ生成を動的に結合する新しいフレームワークMetaAPO(Meta-Weighted Adaptive Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2025-09-27T15:38:24Z) - Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization [37.54165341391688]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。
トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
この研究は、バッチワイドサンプル選択によるLCMアライメントを改善するための、有望な新しい方向性を示している。
論文 参考訳(メタデータ) (2025-06-08T10:26:09Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Functional Graphical Models: Structure Enables Offline Data-Driven Optimization [111.28605744661638]
構造がサンプル効率のよいデータ駆動最適化を実現する方法を示す。
また、FGM構造自体を推定するデータ駆動最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T22:33:14Z) - PASTA: Pessimistic Assortment Optimization [25.51792135903357]
オフラインデータ駆動環境でのアソシエーション最適化のクラスについて検討する。
本稿では,悲観主義の原理に基づくPASTA(Pessimistic Assortment opTimizAtion)と呼ばれるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T01:11:51Z) - Integrating Material Selection with Design Optimization via Neural
Networks [6.114822256728633]
本稿では,変分オートエンコーダ(VAE)を同時最適化に用いることを提案する。
提案するフレームワークはトラスを用いて実証され,データベースから最適な素材を選択する必要がある。
いくつかの数値的な例は、提案フレームワークの有効性を示している。
論文 参考訳(メタデータ) (2021-12-23T14:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。