Fugu-MT 論文翻訳(概要): Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms

論文の概要: Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms

arxiv url: http://arxiv.org/abs/2503.07154v1
Date: Mon, 10 Mar 2025 10:27:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.845868
Title: Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms
Title（参考訳）: 推論時間スケーリングのアイデアは、生成的事前学習アルゴリズムに相応しい
Authors: Jiaming Song, Linqi Zhou,
Abstract要約: 推論ファーストの視点は、新しい生成事前学習アルゴリズムに刺激を与えることができると論じる。本研究では,拡散モデルの予測過程における目標修正による制限への対処が,安定な単一段階アルゴリズムを実現する方法を示す。
参考スコア（独自算出の注目度）: 35.74919627230777
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent years have seen significant advancements in foundation models through generative pre-training, yet algorithmic innovation in this space has largely stagnated around autoregressive models for discrete signals and diffusion models for continuous signals. This stagnation creates a bottleneck that prevents us from fully unlocking the potential of rich multi-modal data, which in turn limits the progress on multimodal intelligence. We argue that an inference-first perspective, which prioritizes scaling efficiency during inference time across sequence length and refinement steps, can inspire novel generative pre-training algorithms. Using Inductive Moment Matching (IMM) as a concrete example, we demonstrate how addressing limitations in diffusion models' inference process through targeted modifications yields a stable, single-stage algorithm that achieves superior sample quality with over an order of magnitude greater inference efficiency.
Abstract（参考訳）: 近年では、生成前訓練による基礎モデルの大幅な進歩が見られるが、アルゴリズムの革新は離散信号の自己回帰モデルや連続信号の拡散モデルを中心に停滞している。この停滞は、リッチなマルチモーダルデータの可能性を完全に解き放つのを防ぐボトルネックを生み出し、それによってマルチモーダルインテリジェンスの進歩を制限します。推論優先の視点は、シーケンス長と精巧化ステップをまたいだ推論時間におけるスケーリング効率の優先順位付けであり、新しい生成前学習アルゴリズムを刺激する可能性があると論じる。 Inductive Moment Matching (IMM) を具体例として, 拡散モデルの推論過程における制限への目標修正による対処方法を示す。

関連論文リスト

Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [62.640128548633946]
離散拡散モデルに対する粒子ギブズサンプリングに基づく新しい推論時間スケーリング手法を提案する。提案手法は,報酬誘導テキスト生成タスクにおける事前推定時間戦略を常に上回る。
論文参考訳（メタデータ） (2025-07-11T08:00:47Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps [48.16416920913577]
拡散モデルの予測時間スケーリングの挙動を,デノナイジングステップの増大を超えて検討する。拡散サンプリングプロセスにおいて,より優れたノイズを特定することを目的とした探索問題を考察する。その結果, 推定時間計算の増加は, 拡散モデルにより生成された試料の品質を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-01-16T18:30:37Z)
Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [11.400431211239958]
拡散モデルは生成モデリングの強力なツールとして登場してきた。微調整拡散モデルのための制御フレームワークを提案する。 PI-FTは線形速度で大域収束することを示す。
論文参考訳（メタデータ） (2024-12-24T04:55:46Z)
Adaptive Non-Uniform Timestep Sampling for Diffusion Model Training [4.760537994346813]
データ分布が複雑化するにつれて、収束のためのトレーニング拡散モデルがますます複雑になる。より重要な時間ステップを優先する一様でない時間ステップサンプリング手法を提案する。提案手法は, 各種データセット, スケジューリング戦略, 拡散アーキテクチャにまたがるロバストな性能を示す。
論文参考訳（メタデータ） (2024-11-15T07:12:18Z)
Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文参考訳（メタデータ） (2024-07-03T17:34:55Z)
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文参考訳（メタデータ） (2024-07-01T15:43:25Z)
Variational quantization for state space models [3.9762742923544456]
何千もの異種時系列を収集する大規模なデータセットを用いてタスクを予測することは、多くの分野において重要な統計問題である。離散状態空間隠蔽マルコフモデルと最近のニューラルネットワークアーキテクチャを組み合わせた新しい予測モデルを提案し,ベクトル量子化変分オートエンコーダにインスパイアされたトレーニング手順を提案する。提案手法の性能を複数のデータセットを用いて評価し,他の最先端ソリューションよりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-17T07:01:41Z)
MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process [26.661721555671626]
本稿では,最先端の予測性能を実現する新しい多粒度時系列(MG-TSD)モデルを提案する。われわれのアプローチは外部データに頼らず、様々な領域にまたがって汎用的で適用可能である。
論文参考訳（メタデータ） (2024-03-09T01:15:03Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。