論文の概要: Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning
- arxiv url: http://arxiv.org/abs/2505.24844v1
- Date: Fri, 30 May 2025 17:43:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.108172
- Title: Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning
- Title(参考訳): Chameleon: 言語モデルの事前トレーニングと微調整のための柔軟なデータ混合フレームワーク
- Authors: Wanyun Xie, Francesco Tonin, Volkan Cevher,
- Abstract要約: 既存のドメイン再重み付け手法は、しばしばコストのかかる重み計算に依存し、新しいデータが導入されたときに再トレーニングを必要とする。
我々は、ドメインの重要性を定量化するためにレバレッジスコアを利用するフレキシブルで効率的なデータミキシングフレームワークChameleonを紹介します。
本手法は, 微粒化におけるドメイン再重み付けを効率よく実現し, 均一混合による全微粒化領域におけるテストパープレキシティを一貫して改善する。
- 参考スコア(独自算出の注目度): 47.89931529975717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data mixtures greatly impact the generalization performance of large language models. Existing domain reweighting methods often rely on costly weight computations and require retraining when new data is introduced. To this end, we introduce a flexible and efficient data mixing framework, Chameleon, that employs leverage scores to quantify domain importance within a learned embedding space. We first construct a domain affinity matrix over domain embeddings. The induced leverage scores determine a mixture that upweights domains sharing common representations in embedding space. This formulation allows direct transfer to new data by computing the new domain embeddings. In experiments, we demonstrate improvements over three key scenarios: (i) our computed weights improve performance on pretraining domains with a fraction of the compute of existing methods; (ii) Chameleon can adapt to data changes without proxy retraining, boosting few-shot reasoning accuracies when transferred to new data; (iii) our method enables efficient domain reweighting in finetuning, consistently improving test perplexity on all finetuning domains over uniform mixture. Our code is available at https://github.com/LIONS-EPFL/Chameleon.
- Abstract(参考訳): 学習データ混合は、大規模言語モデルの一般化性能に大きな影響を及ぼす。
既存のドメイン再重み付け手法は、しばしばコストのかかる重み計算に依存し、新しいデータが導入されたときに再トレーニングを必要とする。
この目的のために、我々は、学習された埋め込み空間におけるドメインの重要性を定量化するためにレバレッジスコアを利用するフレキシブルで効率的なデータミキシングフレームワークChameleonを導入しました。
まず、ドメイン埋め込み上のドメイン親和性行列を構築する。
誘導レバレッジスコアは、埋め込み空間において共通の表現を共有するドメインを重み付けする混合物を決定する。
この定式化により、新しいドメイン埋め込みを計算して、新しいデータへの直接転送が可能になる。
実験では、3つの主要なシナリオに対して改善を示す。
(i)計算重量は,既存手法の計算量のごく一部で事前学習領域の性能を向上させる。
(ii)Chameleonは、プロキシの再トレーニングなしにデータ変更に適応することができ、新しいデータに転送された際の数発の推論精度を高めることができる。
3) 本手法は, 微粒化における効率の良いドメイン再重み付けを可能にし, 均一混合によるすべての微粒化領域におけるテストの難易度を一貫して改善する。
私たちのコードはhttps://github.com/LIONS-EPFL/Chameleon.comから入手可能です。
関連論文リスト
- ChameleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters [3.729242965449096]
本稿では,大規模言語モデルの推論時間適応を可能にする新しいフレームワークであるChameleonLLMを紹介する。
Low-Rank Adaptation (LoRA)のような従来の微調整手法とは異なり、本手法はデコーダ重みに対する適応的な修正を動的に生成する。
同様の入力をインテリジェントにグループ化し、ハイパーネットワーク経由でコンテキスト対応の低ランク更新を演算することで、ChameleonLLMは大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-02-06T18:57:06Z) - Commute Your Domains: Trajectory Optimality Criterion for Multi-Domain Learning [50.80758278865274]
マルチドメイン学習では、共有知識を活用し、一般化を改善するために、多様なデータドメインで単一のモデルを訓練する。
これらのドメインからのデータがトレーニングに使用される順序は、各ドメインにおけるモデルの性能に大きく影響します。
勾配ベクトル場のリーブラケットの概念を用いたマルチドメイン学習における訓練順序(またはデータ混合)の影響について検討する。
論文 参考訳(メタデータ) (2025-01-26T15:12:06Z) - DoGE: Domain Reweighting with Generalization Estimation [42.32000165235568]
一般化推定(DoGE)を用いたDOmain再重み付けを提案する。
実験では、DoGEがベースモデルの一般化をターゲットデータ混合にどのように改善するかを広範囲に示す。
DoGEはドメイン間の依存関係を効果的に識別することができ、一貫してターゲットドメインにおけるテストの難易度を向上する。
論文 参考訳(メタデータ) (2023-10-23T22:51:58Z) - Domain Generalization by Rejecting Extreme Augmentations [13.114457707388283]
ドメイン外およびドメインの一般化設定では、データ拡張が顕著で堅牢なパフォーマンス向上をもたらすことを示す。
i)標準データ拡張変換の均一サンプリング,(ii)ドメイン外での作業において期待される高いデータ分散を考慮した強度変換,(iii)トレーニングを損なうような極端な変換を拒否する新たな報酬関数を考案する,という簡単なトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-10-10T14:46:22Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Domain-incremental Cardiac Image Segmentation with Style-oriented Replay
and Domain-sensitive Feature Whitening [67.6394526631557]
M&Mは、各受信データセットから漸進的に学習し、時間が経つにつれて改善された機能で漸進的に更新する必要がある。
医学的シナリオでは、データのプライバシのため、過去のデータへのアクセスや保存が一般的に許可されないため、これは特に困難である。
本稿では,まず過去のドメイン入力を復元し,モデル最適化中に定期的に再生する新しいドメイン増分学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-09T13:07:36Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。