論文の概要: Masked Diffusion Language Models with Frequency-Informed Training
- arxiv url: http://arxiv.org/abs/2509.05056v1
- Date: Fri, 05 Sep 2025 12:35:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.587552
- Title: Masked Diffusion Language Models with Frequency-Informed Training
- Title(参考訳): 周波数インフォームドトレーニングを用いたマスケ拡散言語モデル
- Authors: Despoina Kosmopoulou, Efthymios Georgiou, Vaggelis Dorovatas, Georgios Paraskevopoulos, Alexandros Potamianos,
- Abstract要約: 本研究では,BabyLM 2025 Challengeにおけるデータ効率トレーニングのためのマスク付き拡散言語モデリングフレームワークを提案する。
本手法は,周波数インフォームドマスキングを取り入れた厳密なデータ制約下での言語モデリングに拡散学習の目的を適用した。
本研究では,BabyLMベンチマークスイートを用いて,言語能力,世界知識,人間らしく評価した。
- 参考スコア(独自算出の注目度): 46.12949944358703
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a masked diffusion language modeling framework for data-efficient training for the BabyLM 2025 Challenge. Our approach applies diffusion training objectives to language modeling under strict data constraints, incorporating frequency-informed masking that prioritizes learning from rare tokens while maintaining theoretical validity. We explore multiple noise scheduling strategies, including two-mode approaches, and investigate different noise weighting schemes within the NELBO objective. We evaluate our method on the BabyLM benchmark suite, measuring linguistic competence, world knowledge, and human-likeness. Results show performance competitive to hybrid autoregressive-masked baselines, demonstrating that diffusion-based training offers a viable alternative for data-restricted language learning.
- Abstract(参考訳): 本研究では,BabyLM 2025 Challengeにおけるデータ効率トレーニングのためのマスク付き拡散言語モデリングフレームワークを提案する。
提案手法は,厳密なデータ制約下での言語モデリングに拡散学習の目的を適用し,理論的妥当性を維持しつつ,希少なトークンからの学習を優先する周波数インフォームドマスキングを取り入れた。
我々は,2モードアプローチを含む複数のノイズスケジューリング手法について検討し,NELBO対象の異なるノイズ重み付け方式について検討する。
本研究では,BabyLMベンチマークスイートを用いて,言語能力,世界知識,人間らしく評価した。
その結果,拡散に基づく学習がデータ制限型言語学習に有効な代替手段であることを示す。
関連論文リスト
- On the Evolution of Federated Post-Training Large Language Models: A Model Accessibility View [82.19096285469115]
Federated Learning (FL)は、クライアントデータのプライバシを保持しながら、分散データサイロをまたいだトレーニングモデルを可能にする。
近年,FL内での大規模言語モデル (LLM) の学習を効率化し,計算・通信の課題に対処する手法が研究されている。
これらの制限に対処するために、推論のみのパラダイム(ブラックボックスのFedLLM)が登場した。
論文 参考訳(メタデータ) (2025-08-22T09:52:31Z) - Multiple Choice Learning of Low Rank Adapters for Language Modeling [40.380297530862656]
本稿では,言語モデルにおける次トーケン予測を拡張する学習手法であるLoRA-MCLを提案する。
本研究では,実環境における視覚的・音声的キャプションタスクについて広範な実験を行い,本手法が生成した出力の多様性と関連性を実証する。
論文 参考訳(メタデータ) (2025-07-14T16:00:51Z) - Conditional [MASK] Discrete Diffusion Language Model [14.208510167132983]
Diffusion-EAGSは、条件付きマスキング言語モデルと拡散言語モデルを統合するフレームワークである。
本研究では,Diffusion-EAGSが最高の品質・多様性のトレードオフを実現し,非自己回帰テキスト生成の有効性を示す。
論文 参考訳(メタデータ) (2024-11-10T11:49:36Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。