Fugu-MT 論文翻訳(概要): SSD-2: Scaling and Inference-time Fusion of Diffusion Language Models

論文の概要: SSD-2: Scaling and Inference-time Fusion of Diffusion Language Models

arxiv url: http://arxiv.org/abs/2305.14771v1
Date: Wed, 24 May 2023 06:22:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 19:12:15.564536
Title: SSD-2: Scaling and Inference-time Fusion of Diffusion Language Models
Title（参考訳）: SSD-2:拡散言語モデルのスケーリングと推論時間融合
Authors: Xiaochuang Han, Sachin Kumar, Yulia Tsvetkov, Marjan Ghazvininejad
Abstract要約: 拡散に基づく言語モデル(LM)は推論で容易に制御できる有能な生成モデルであることが示されている。本稿では,最近提案した拡散モデルSSD-LMを0.4Bから13Bパラメータに拡張する手法を提案する。自己回帰モデルと比較して、拡散モデル間の協調はより効果的であり、より高い品質とより関連するモデル応答をもたらす。
参考スコア（独自算出の注目度）: 53.259135092985375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion-based language models (LMs) have been shown to be competent generative models that are easy to control at inference and are a promising alternative to autoregressive LMs. While autoregressive LMs have benefited immensely from scaling and instruction-based learning, existing studies on diffusion LMs have been conducted on a relatively smaller scale. Starting with a recently proposed diffusion model SSD-LM, in this work we explore methods to scale it from 0.4B to 13B parameters, proposing several techniques to improve its training and inference efficiency. We call the new model SSD-2. We further show that this model can be easily finetuned to follow instructions. Finally, leveraging diffusion models' capability at inference-time control, we show that SSD-2 facilitates novel ensembles with 100x smaller models that can be customized and deployed by individual users. We find that compared to autoregressive models, the collaboration between diffusion models is more effective, leading to higher-quality and more relevant model responses due to their ability to incorporate bi-directional contexts.
Abstract（参考訳）: 拡散型言語モデル(LM)は推論時に容易に制御でき、自己回帰型LMの代替となる有能な生成モデルであることが示されている。自己回帰型LMは、スケーリングと命令ベース学習の恩恵を受けてきたが、既存の拡散型LMの研究は比較的小規模に行われている。最近提案された拡散モデルSSD-LMから始まり、0.4Bから13Bのパラメータにスケールする方法を検討し、トレーニングと推論効率を改善するためのいくつかの手法を提案する。我々は新しいSSD-2と呼ぶ。さらに、このモデルを簡単に微調整して指示に従うことができることを示す。最後に,推測時間制御における拡散モデルの能力を活用することで,SSD-2は個々のユーザがカスタマイズ,デプロイできる100倍の小型モデルで,新たなアンサンブルを促進することを示す。自己回帰モデルと比較して拡散モデル間の協調はより効果的であり、双方向のコンテキストを組み込む能力により、高品質で関連性の高いモデル応答をもたらす。

関連論文リスト

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs [63.580867975515474]
拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。 LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
論文参考訳（メタデータ） (2025-06-17T11:45:37Z)
Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.31088116526825]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文参考訳（メタデータ） (2025-06-16T17:59:08Z)
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。教師付き微調整(SFT)とRLの組み合わせにより,事前学習したdLLMを推論モデルに適応するフレームワークであるd1を提案する。 d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-16T16:08:45Z)
TESS 2: A Large-Scale Generalist Diffusion Language Model [24.91689676432666]
TESS 2は命令追従拡散言語モデルであり、命令追従拡散モデルより優れている。適応学習とベースモデルの選択は,優れた指示追従拡散モデルの訓練に不可欠であることがわかった。モデル出力の調整を基礎となるモデルのトレーニングを必要とせずに行うための,新しい,モジュール型の推論時ガイダンス手法である報奨ガイダンスを提案する。
論文参考訳（メタデータ） (2025-02-19T17:50:31Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文参考訳（メタデータ） (2024-10-23T14:04:22Z)
A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。 LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T20:24:50Z)
Table-to-Text Generation with Pretrained Diffusion Models [0.0]
拡散モデルは様々なテキスト生成タスクにまたがって最先端のパフォーマンスを実現する上で大きな可能性を示している。タスクに拡散モデルを適用し,詳細な解析を行うことにより,表から表への変換問題へのそれらの適用について検討する。この結果から,表-テキスト領域において拡散モデルが同等の結果を得ることが明らかとなった。
論文参考訳（メタデータ） (2024-09-10T15:36:53Z)
Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models [0.8133739801185272]
小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、主にスーパーバイザード・ファイン・チューニング(SFT)を通して行われる。そこで本研究では,より小さな言語モデルを用いて自己定義する自己記述型指導手法を提案する。コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内とドメイン外の両方のシナリオでインストラクションチューニングを著しく上回っていることを示している。
論文参考訳（メタデータ） (2024-05-01T09:10:27Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。 RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文参考訳（メタデータ） (2024-03-28T14:15:10Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。 Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。 GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文参考訳（メタデータ） (2023-05-29T04:22:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。