論文の概要: Olmix: A Framework for Data Mixing Throughout LM Development
- arxiv url: http://arxiv.org/abs/2602.12237v1
- Date: Thu, 12 Feb 2026 18:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.97664
- Title: Olmix: A Framework for Data Mixing Throughout LM Development
- Title(参考訳): Olmix: LM開発を通じてデータミキシングを行うフレームワーク
- Authors: Mayee F. Chen, Tyler Murray, David Heineman, Matt Jordan, Hannaneh Hajishirzi, Christopher Ré, Luca Soldaini, Kyle Lo,
- Abstract要約: Olmixは、トレーニング言語モデルにおけるデータミキシングの問題に対処するフレームワークである。
既存のメソッドにまたがる設計選択には正当化やコンセンサスがなく、データ制約のような実践的な問題を見落としている。
既存の比率を再利用し、更新によって影響を受けるドメインに対してのみ比率を再計算するメカニズムである混合再利用を導入する。
- 参考スコア(独自算出の注目度): 90.12613780066063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data mixing -- determining the ratios of data from different domains -- is a first-order concern for training language models (LMs). While existing mixing methods show promise, they fall short when applied during real-world LM development. We present Olmix, a framework that addresses two such challenges. First, the configuration space for developing a mixing method is not well understood -- design choices across existing methods lack justification or consensus and overlook practical issues like data constraints. We conduct a comprehensive empirical study of this space, identifying which design choices lead to a strong mixing method. Second, in practice, the domain set evolves throughout LM development as datasets are added, removed, partitioned, and revised -- a problem setting largely unaddressed by existing works, which assume fixed domains. We study how to efficiently recompute the mixture after the domain set is updated, leveraging information from past mixtures. We introduce mixture reuse, a mechanism that reuses existing ratios and recomputes ratios only for domains affected by the update. Over a sequence of five domain-set updates mirroring real-world LM development, mixture reuse matches the performance of fully recomputing the mix after each update with 74% less compute and improves over training without mixing by 11.6% on downstream tasks.
- Abstract(参考訳): データミキシング -- 異なるドメインからのデータの比率を決定する -- は、トレーニング言語モデル(LM)の第一の関心事である。
既存の混合法は将来性を示すが、実世界のLM開発で適用した場合は不足する。
この2つの課題に対処するフレームワークであるOlmixを紹介します。
まず、ミキシングメソッドを開発するための設定空間は、よく理解されていない -- 既存のメソッドにおける設計選択には正当化やコンセンサスがなく、データ制約のような実践的な問題を見落としている。我々は、この領域の包括的な実証的研究を行い、どの設計選択が強いミキシングメソッドにつながるかを特定します。そして、データセットの追加、削除、分割、修正など、ドメインセットはLM開発全体を通して進化します。
我々は,過去の混合情報を利用して,ドメインセットの更新後の混合物の効率的な再計算方法について検討した。
既存の比率を再利用し、更新によって影響を受けるドメインに対してのみ比率を再計算するメカニズムである混合再利用を導入する。
実世界のLM開発を反映した5つのドメインセット更新の連続において、混合再利用は、各更新後のミックスを完全に再計算する性能と74%の少ない計算で一致し、下流タスクで11.6%のミキシングを行わずにトレーニング時間を改善する。
関連論文リスト
- MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training [54.78779514101305]
MaD-Mixは、VLMトレーニングのためのマルチモーダルデータ混合を導出する、原則化されたフレームワークである。
MaD-Mixは様々なベンチマークでVLMトレーニングを高速化する。
複雑なトリモーダルビデオ-画像-テキストのシナリオでは、MaD-Mixは均一な重量よりも平均的な精度を向上する。
論文 参考訳(メタデータ) (2026-02-08T03:07:36Z) - FMIP: Joint Continuous-Integer Flow For Mixed-Integer Linear Programming [52.52020895303244]
Mixed-Integer Linear Programming (MILP)は、複雑な意思決定問題の基本的なツールである。
混合整数線形計画法(FMIP)のための連立連続整数フローを提案する。これはMILPソリューションにおける整数変数と連続変数の共分散をモデル化する最初の生成フレームワークである。
FMIPは任意のバックボーンネットワークや様々なダウンストリームソルバと完全に互換性があり、現実世界のMILPアプリケーションにも適している。
論文 参考訳(メタデータ) (2025-07-31T10:03:30Z) - Merge to Mix: Mixing Datasets via Model Merging [2.990932417718553]
大規模モデル(LM)を微調整するためのデータセットの混合は、下流タスクのパフォーマンスを最大化するために重要になっている。
モデルマージによるデータセットの合成を高速化する新しい手法であるtextitMerge to Mix$を提案する。
実験により、Merge to Mixは、微調整LMのためのデータセット選択において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-05-21T22:34:13Z) - PowMix: A Versatile Regularizer for Multimodal Sentiment Analysis [71.8946280170493]
本稿では,単相混合型正規化手法の強みを生かした汎用な埋め込み空間正規化器であるPowMixを紹介する。
PowMixはマルチモーダルアーキテクチャの融合段階の前に統合され、テキストとテキストを混合するなどのモダル内混合を容易にし、レギュレータとして機能する。
論文 参考訳(メタデータ) (2023-12-19T17:01:58Z) - Supervision Interpolation via LossMix: Generalizing Mixup for Object
Detection and Beyond [10.25372189905226]
LossMixは単純だが汎用的で効果的な正規化であり、物体検出器の性能と堅牢性を高める。
PASCAL VOCとMS COCOデータセットの実証結果は、LossMixが検出のための最先端の手法を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-03-18T06:13:30Z) - A Survey of Mix-based Data Augmentation: Taxonomy, Methods, Applications, and Explainability [29.40977854491399]
データ拡張(DA)は、現代の機械学習やディープニューラルネットワークでは不可欠である。
この調査は、MixDA(Mix-based Data Augmentation)と呼ばれるDAテクニックの重要なサブセットを包括的にレビューする。
単一のサンプルやデータセット全体を運用する従来のDAアプローチとは対照的に、MixDAはその有効性、単純性、柔軟性、計算効率、理論的基礎、幅広い適用性のために際立っている。
論文 参考訳(メタデータ) (2022-12-21T09:58:14Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。