論文の概要: Closing the Data-Efficiency Gap Between Autoregressive and Masked Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2510.09885v1
- Date: Fri, 10 Oct 2025 21:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.670415
- Title: Closing the Data-Efficiency Gap Between Autoregressive and Masked Diffusion LLMs
- Title(参考訳): 自己回帰型と仮面拡散型LDM間のデータ効率ギャップの閉鎖
- Authors: Xu Pan, Ely Hahami, Jingxuan Fan, Ziqian Xie, Haim Sompolinsky,
- Abstract要約: マスケード拡散大言語モデル (dLLM) はarLLMパラダイムの強力な代替品として登場している。
我々は arLLMs と dLLMs を微調整し, 知識の一般化と逆の呪いを探索するために, 前後スタイルの質問回答 (QA) を用いて評価する。
本稿では,事前学習されたarLLMへの知識注入のためのマスク付微調整パラダイムを提案する。
- 参考スコア(独自算出の注目度): 12.720422418657122
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite autoregressive large language models (arLLMs) being the current dominant paradigm in language modeling, they resist knowledge injection via fine-tuning due to inherent shortcomings such as the "reversal curse" -- the challenge of answering questions that reverse the original information order in the training sample. Masked diffusion large language models (dLLMs) are rapidly emerging as a powerful alternative to the arLLM paradigm, with evidence of better data efficiency and free of the "reversal curse" in pre-training. However, it is unknown whether these advantages extend to the post-training phase, i.e. whether pre-trained dLLMs can easily acquire new knowledge through fine-tuning. On three diverse datasets, we fine-tune arLLMs and dLLMs, evaluating them with forward and backward style Question Answering (QA) to probe knowledge generalization and the reversal curse. Our results confirm that arLLMs critically rely on extensive data augmentation via paraphrases for QA generalization, and paraphrases are only effective when their information order matches the QA style. Conversely, dLLMs achieve high accuracies on both forward and backward QAs without paraphrases; adding paraphrases yields only marginal gains. Lastly, inspired by the dLLM's performance, we introduce a novel masked fine-tuning paradigm for knowledge injection into pre-trained arLLMs. This proposed method successfully and drastically improves the data efficiency of arLLM fine-tuning, effectively closing the performance gap with dLLMs.
- Abstract(参考訳): 自己回帰的な大規模言語モデル(arLLM)が言語モデリングにおける現在の支配的なパラダイムであるにもかかわらず、"逆の呪い"のような固有の欠点のため、微調整による知識注入に抵抗する。
マスケード拡散大言語モデル(dLLM)は、データ効率が向上し、事前トレーニングにおける"逆の呪い"が無くなったことの証拠として、arLLMパラダイムの強力な代替品として急速に現れている。
しかし、これらの利点が訓練後の段階、すなわち訓練済みのdLLMsが微調整によって新しい知識を容易に獲得できるかどうかは不明である。
3つの多様なデータセットに対して, arLLMsとdLLMsを微調整し, 知識一般化と逆の呪文を探索するために, 前後スタイルの質問回答(QA)を用いて評価した。
以上の結果から,arLLMはQA一般化のためのパラフレーズによる広範なデータ拡張に極めて依存しており,情報順序がQAスタイルと一致する場合にのみパラフレーズが有効であることが確認された。
逆に、dLLMはパラフレーズなしのQAと前後のQAで高い精度を達成し、パラフレーズを追加すると限界ゲインしか得られない。
最後に、dLLMの性能に触発されて、事前学習されたarLLMに知識注入するための新しいマスク付き微調整パラダイムを導入する。
提案手法は, arLLMの微調整におけるデータ効率を大幅に向上させ, 性能ギャップを dLLM で効果的に解消する。
関連論文リスト
- DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment [4.379304291229695]
LLM攻撃技術を応用したトレーニングフリーでモデルに依存しないフレームワークであるRefusal-Aware Adaptive Injection (RAAI)を紹介する。
RAAIは内部の拒絶信号を検出し、事前に定義されたフレーズを適応的に注入することで、有害で流用な完了を誘導する。
実験の結果,RAAIはLDMを効果的に脱獄させ,平均で2.15%から61.04%までの有害反応率を増加させた。
論文 参考訳(メタデータ) (2025-06-07T08:19:01Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Curriculum-style Data Augmentation for LLM-based Metaphor Detection [7.4594050203808395]
オープンソースLLMの微調整によるメタファ検出手法を提案する。
本手法は,すべてのベースラインにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T02:05:21Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。