論文の概要: Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning
- arxiv url: http://arxiv.org/abs/2410.14157v1
- Date: Fri, 18 Oct 2024 03:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:42.714693
- Title: Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning
- Title(参考訳): 自己回帰を超えて - 複雑な推論と計画のための離散拡散
- Authors: Jiacheng Ye, Jiahui Gao, Shansan Gong, Lin Zheng, Xin Jiang, Zhenguo Li, Lingpeng Kong,
- Abstract要約: 拡散モデルが自己回帰的アプローチを損なう困難なサブゴールをどのように学習するかを示す。
学習時の難易度に基づいてサブゴールを優先する多粒性拡散モデリング(MDM)を提案する。
Countdown、Sudoku、Boolean Satisfiability Problemsといった複雑なタスクでは、MDMは検索テクニックを使わずに自己回帰モデルよりも優れている。
- 参考スコア(独自算出の注目度): 89.96284387376119
- License:
- Abstract: Autoregressive language models, despite their impressive capabilities, struggle with complex reasoning and long-term planning tasks. We introduce discrete diffusion models as a novel solution to these challenges. Through the lens of subgoal imbalance, we demonstrate how diffusion models effectively learn difficult subgoals that elude autoregressive approaches. We propose Multi-granularity Diffusion Modeling (MDM), which prioritizes subgoals based on difficulty during learning. On complex tasks like Countdown, Sudoku, and Boolean Satisfiability Problems, MDM significantly outperforms autoregressive models without using search techniques. For instance, MDM achieves 91.5\% and 100\% accuracy on Countdown and Sudoku, respectively, compared to 45.8\% and 20.7\% for autoregressive models. Our work highlights the potential of diffusion-based approaches in advancing AI capabilities for sophisticated language understanding and problem-solving tasks.
- Abstract(参考訳): 自己回帰言語モデルは、その印象的な能力にもかかわらず、複雑な推論と長期計画タスクに苦労する。
これらの課題に対する新しい解法として離散拡散モデルを導入する。
不均衡のレンズを通して,拡散モデルが自己回帰的アプローチを損なう困難なサブゴールを効果的に学習する方法を実証する。
学習時の難易度に基づいてサブゴールを優先する多粒性拡散モデリング(MDM)を提案する。
Countdown、Sudoku、Boolean Satisfiability Problemsといった複雑なタスクでは、MDMは検索テクニックを使わずに自己回帰モデルよりも優れている。
例えば、MDMはCountdownとSudokuでそれぞれ91.5\%と100\%の精度を達成しており、自動回帰モデルでは45.8\%と20.7\%である。
我々の研究は、洗練された言語理解と問題解決タスクのためのAI能力の進歩における拡散ベースのアプローチの可能性を強調している。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Model-Based Diffusion for Trajectory Optimization [8.943418808959494]
データ無しで軌道最適化(TO)問題を解決するために拡散法を用いた最適化手法であるモデルベース拡散(MBD)を導入する。
MBDは外部データを必要としないが、様々な性質のデータと自然に統合して拡散過程を制御できる。
MBDは、最先端の強化学習とサンプリングベースのTOメソッドを上回り、コンタクトリッチなタスクに挑戦する。
論文 参考訳(メタデータ) (2024-05-28T22:14:25Z) - Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。
DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。
本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-12T16:23:28Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Eliminating Lipschitz Singularities in Diffusion Models [51.806899946775076]
拡散モデルは、時間ステップの零点付近で無限のリプシッツをしばしば表すことを示す。
これは、積分演算に依存する拡散過程の安定性と精度に脅威をもたらす。
我々はE-TSDMと呼ばれる新しい手法を提案し、これは0に近い拡散モデルのリプシッツを除去する。
論文 参考訳(メタデータ) (2023-06-20T03:05:28Z) - Efficient Diffusion Models for Vision: A Survey [34.610299976294904]
拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を実証している。
DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。
DMはトレーニングと推論の段階でかなりの計算オーバーヘッドを発生させる。
論文 参考訳(メタデータ) (2022-10-07T06:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。