論文の概要: Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language
Models
- arxiv url: http://arxiv.org/abs/2402.07754v1
- Date: Mon, 12 Feb 2024 16:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:43:37.764038
- Title: Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language
Models
- Title(参考訳): 思考の拡散:拡散言語モデルにおける思考の連鎖
- Authors: Jiacheng Ye, Shansan Gong, Liheng Chen, Lin Zheng, Jiahui Gao, Han
Shi, Chuan Wu, Zhenguo Li, Wei Bi, Lingpeng Kong
- Abstract要約: Diffusion-of-Thought (DoT) は、拡散過程を通じて時間とともに拡散する推論ステップを可能にする。
実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。
DoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。
- 参考スコア(独自算出の注目度): 98.50463448054865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have gained attention in text processing, offering many
potential advantages over traditional autoregressive models. This work explores
the integration of diffusion models and Chain-of-Thought (CoT), a
well-established technique to improve the reasoning ability in autoregressive
language models. We propose Diffusion-of-Thought (DoT), allowing reasoning
steps to diffuse over time through the diffusion process. In contrast to
traditional autoregressive language models that make decisions in a
left-to-right, token-by-token manner, DoT offers more flexibility in the
trade-off between computation and reasoning performance. Our experimental
results demonstrate the effectiveness of DoT in multi-digit multiplication and
grade school math problems. Additionally, DoT showcases promising
self-correction abilities and benefits from existing reasoning-enhancing
techniques like self-consistency decoding. Our findings contribute to the
understanding and development of reasoning capabilities in diffusion language
models.
- Abstract(参考訳): 拡散モデルはテキスト処理で注目を集めており、従来の自己回帰モデルよりも多くの利点がある。
本研究は,自己回帰型言語モデルにおける推論能力を向上する手法として,拡散モデルとChain-of-Thought(CoT)の統合について検討する。
我々は,拡散過程を通じて時間の経過とともに推論ステップが拡散できるように,思考の拡散(dot)を提案する。
従来の自己回帰型言語モデルとは対照的に、dotは計算と推論のパフォーマンスの間のトレードオフにおいて、より柔軟性を提供します。
実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。
さらにDoTでは,自己整合性復号化のような既存の推論向上技術による,有望な自己補正能力とメリットも紹介している。
本研究は,拡散言語モデルにおける推論能力の理解と開発に寄与する。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Likelihood-Based Diffusion Language Models [13.916640262862215]
自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。
我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。
我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
論文 参考訳(メタデータ) (2023-05-30T16:43:31Z) - A Survey of Diffusion Models in Natural Language Processing [11.233768932957771]
拡散モデルは、ネットワークや多様体にまたがる情報や信号の拡散を捉える。
本稿は,NLPで使用される拡散モデルの異なる定式化,その強度と限界,それらの応用について論じる。
論文 参考訳(メタデータ) (2023-05-24T03:25:32Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。