Fugu-MT 論文翻訳(概要): AutoMixer: Checkpoint Artifacts as Automatic Data Mixers

論文の概要: AutoMixer: Checkpoint Artifacts as Automatic Data Mixers

arxiv url: http://arxiv.org/abs/2506.21910v1
Date: Fri, 27 Jun 2025 04:53:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 21:12:23.089816
Title: AutoMixer: Checkpoint Artifacts as Automatic Data Mixers
Title（参考訳）: AutoMixer: 自動データミキサーとしてのチェックポイントアーティファクト
Authors: Ernie Chang, Yang Li, Patrick Huber, David Kant, Yangyang Shi, Vikas Chandra,
Abstract要約: 本研究では,チェックポイントモデルが学習軌跡の異なる点において出現する能力を示すことを観察する。これらのアーティファクトモデルをベンチマークでそれぞれの能力に基づいて同定する。我々はこれらをデータミキサーとして利用し、ソースデータに対する集約された1次影響近似を利用する。
参考スコア（独自算出の注目度）: 22.886405663171058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In language model training, it is desirable to equip models with capabilities from various tasks. However, it is not clear how to directly obtain the right data mixtures for these capabilities as the relationship between data and tasks is difficult to be modeled. In this work, we observe that checkpoint models exhibit emerging capabilities at different points in the training trajectory. Often, the training process saves checkpoints as artifacts that are under-utilized as a source of in-training data signals. We identify these artifact models based on their respective capabilities on the benchmarks and leverage them as data mixers by using their aggregated first-order influence approximation over source data. We demonstrated on eight reasoning benchmarks that the proposed framework shows significant improvements in the pretraining setting, with performance improvements of up to 1.93%. Overall, this shows the potential of checkpoint models to enhance data quality and optimize data mixtures.
Abstract（参考訳）: 言語モデルトレーニングでは、様々なタスクからモデルに機能を持たせることが望ましい。しかし、データとタスクの関係をモデル化することが困難であるため、これらの機能に対して適切なデータミックスを直接取得する方法は明らかではない。本研究では,チェックポイントモデルが学習軌跡の異なる点において出現する能力を示すことを観察する。トレーニングプロセスは多くの場合、チェックポイントをトレーニング中のデータ信号のソースとして未使用のアーティファクトとして保存する。我々は,これらのアーティファクトモデルをベンチマーク上でそれぞれの能力に基づいて同定し,それらをデータミキサーとして活用する。 8つの推論ベンチマークで、提案したフレームワークが事前トレーニング環境で大幅に改善され、パフォーマンスが最大1.93%向上したことを実証した。全体として、これはデータ品質を高め、データ混在を最適化するチェックポイントモデルの可能性を示している。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
Mixtera: A Data Plane for Foundation Model Training [1.797352319167759]
基礎モデルトレーニングのためのデータプレーンであるMixteraを構築、提示します。 Mixteraはトレーニングをボトルネックにせず、256GH200スーパーチップにスケールする。また、視覚言語モデルにおける混合の役割についても検討する。
論文参考訳（メタデータ） (2025-02-27T05:55:44Z)
Evaluating Sample Utility for Efficient Data Selection by Mimicking Model Weights [11.237906163959908]
マルチモーダルモデルは、大規模なWebcrawledデータセットでトレーニングされる。これらのデータセットは、しばしばノイズ、バイアス、無関係な情報を含む。 Mimic Score を用いた効率的なモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2025-01-12T04:28:14Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。 MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。 2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-06-17T06:47:03Z)
Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文参考訳（メタデータ） (2024-03-25T17:14:00Z)
DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文参考訳（メタデータ） (2024-01-23T17:22:00Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
SynBench: Task-Agnostic Benchmarking of Pretrained Representations using Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文参考訳（メタデータ） (2022-10-06T15:25:00Z)
No One Representation to Rule Them All: Overlapping Features of Training Methods [12.58238785151714]
ハイパフォーマンスモデルは、トレーニング方法論に関係なく、同様の予測をする傾向があります。近年の研究では、大規模なコントラスト学習など、非常に異なるトレーニングテクニックが、競争的に高い精度で実現されている。これらのモデルはデータの一般化に特化しており、より高いアンサンブル性能をもたらす。
論文参考訳（メタデータ） (2021-10-20T21:29:49Z)
It's the Best Only When It Fits You Most: Finding Related Models for Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文参考訳（メタデータ） (2020-10-13T22:52:13Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。