論文の概要: David helps Goliath: Inference-Time Collaboration Between Small
Specialized and Large General Diffusion LMs
- arxiv url: http://arxiv.org/abs/2305.14771v2
- Date: Wed, 14 Feb 2024 17:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 19:57:13.435727
- Title: David helps Goliath: Inference-Time Collaboration Between Small
Specialized and Large General Diffusion LMs
- Title(参考訳): David氏がGoliathを支援する - 小さな特殊化と大規模な一般拡散LM間の推論時間コラボレーション
- Authors: Xiaochuang Han, Sachin Kumar, Yulia Tsvetkov, Marjan Ghazvininejad
- Abstract要約: 拡散に基づく言語モデルは、自己回帰型LMに代わる有望な選択肢として浮上している。
我々は最近提案した拡散モデルSSD-LMを0.4Bから13Bパラメータに拡張する方法を提案する。
SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。
- 参考スコア(独自算出の注目度): 49.822063966687175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based language models are emerging as a promising alternative to
autoregressive LMs: they approach the competence of autoregressive LMs while
offering nuanced controllability at inference time. While autoregressive LMs
have benefited immensely from scaling and instruction-based learning, existing
studies of diffusion LMs have been conducted on a smaller scale. Starting with
a recently proposed diffusion model SSD-LM, in this work we first explore
methods to scale it from 0.4B to 13B parameters, proposing techniques to
improve its training and inference efficiency, and to finetune the model to
follow instructions. Armed with a more powerful, general purpose diffusion LM,
we introduce the primary contribution of this work -- SSD-2 -- an approach to
easily ensemble at inference time a large general-purpose diffusion LM with
smaller, but specialized and contextualized diffusion LMs. We show that SSD-2
facilitates novel ensembles with 100x smaller models that can be customized and
deployed by individual users. We find that compared to autoregressive models,
the collaboration between diffusion LMs is more effective, leading to
higher-quality model responses due to their ability to dynamically incorporate
bi-directional contexts.
- Abstract(参考訳): 拡散に基づく言語モデルは、自己回帰型LMの代替として有望なものとして登場しつつある。
自己回帰型LMは、スケーリングと命令ベース学習の恩恵を受けてきたが、既存の拡散型LMの研究は小規模で行われている。
本研究は,最近提案された拡散モデルssd-lmから始まり,0.4bから13bのパラメータに拡張し,そのトレーニングと推論効率を向上させるための手法を提案し,モデルに命令に従うよう微調整する手法を提案する。
より強力で汎用的な拡散 LM を武器とした本研究の主な貢献 - SSD-2 -- は、より小さく、専門的で、文脈化された拡散 LM を用いた大規模汎用拡散 LM の推論時に容易にアンサンブルするためのアプローチである。
SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。
自己回帰モデルと比較して、拡散LM間の協調はより効果的であり、双方向コンテキストを動的に組み込む能力により、高品質なモデル応答をもたらす。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Table-to-Text Generation with Pretrained Diffusion Models [0.0]
拡散モデルは様々なテキスト生成タスクにまたがって最先端のパフォーマンスを実現する上で大きな可能性を示している。
タスクに拡散モデルを適用し,詳細な解析を行うことにより,表から表への変換問題へのそれらの適用について検討する。
この結果から,表-テキスト領域において拡散モデルが同等の結果を得ることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-10T15:36:53Z) - Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models [0.8133739801185272]
小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、主にスーパーバイザード・ファイン・チューニング(SFT)を通して行われる。
そこで本研究では,より小さな言語モデルを用いて自己定義する自己記述型指導手法を提案する。
コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内とドメイン外の両方のシナリオでインストラクションチューニングを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-01T09:10:27Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。
大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。
本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。
RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文 参考訳(メタデータ) (2024-03-28T14:15:10Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。