Fugu-MT 論文翻訳(概要): Amortizing intractable inference in large language models

論文の概要: Amortizing intractable inference in large language models

arxiv url: http://arxiv.org/abs/2310.04363v2
Date: Wed, 13 Mar 2024 22:48:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 02:32:48.633192
Title: Amortizing intractable inference in large language models
Title（参考訳）: 大規模言語モデルにおける難解推論の補正
Authors: Edward J. Hu, Moksh Jain, Eric Elmoznino, Younesse Kaddar, Guillaume Lajoie, Yoshua Bengio, Nikolay Malkin,
Abstract要約: 難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
参考スコア（独自算出の注目度）: 56.92471123778389
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autoregressive large language models (LLMs) compress knowledge from their training data through next-token conditional distributions. This limits tractable querying of this knowledge to start-to-end autoregressive sampling. However, many tasks of interest -- including sequence continuation, infilling, and other forms of constrained generation -- involve sampling from intractable posterior distributions. We address this limitation by using amortized Bayesian inference to sample from these intractable posteriors. Such amortization is algorithmically achieved by fine-tuning LLMs via diversity-seeking reinforcement learning algorithms: generative flow networks (GFlowNets). We empirically demonstrate that this distribution-matching paradigm of LLM fine-tuning can serve as an effective alternative to maximum-likelihood training and reward-maximizing policy optimization. As an important application, we interpret chain-of-thought reasoning as a latent variable modeling problem and demonstrate that our approach enables data-efficient adaptation of LLMs to tasks that require multi-step rationalization and tool use.
Abstract（参考訳）: 自己回帰型大言語モデル (LLM) は、学習データから次の条件分布を通して知識を圧縮する。これにより、この知識の抽出可能なクエリは、開始から終了までの自動回帰サンプリングに制限される。しかし、シーケンス継続、補充、その他の制約された生成を含む多くのタスクは、難解な後続分布からのサンプリングを含む。この制限は、これらの難治性後部からサンプルを採取するために、アモータイズされたベイズ推論を用いて解決する。このような償却は、多様性を求める強化学習アルゴリズムである生成フローネットワーク(GFlowNets)を介して、LLMを微調整することでアルゴリズム的に達成される。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大自由度トレーニングと報酬最大化ポリシ最適化の効果的な代替手段となることを実証的に実証した。重要な応用として、チェーンオブ思考推論を潜在変数モデリング問題として解釈し、多段階合理化やツールの使用を必要とするタスクにLLMをデータ効率で適用できることを実証する。

関連論文リスト

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T13:05:32Z)
WeMMU: Enhanced Bridging of Vision-Language Models and Diffusion Models via Noisy Query Tokens [69.97021957331326]
本稿では,VLMと拡散モデル間の分散表現空間をエンドツーエンドの最適化により学習するノイズクエリトークンを提案する。また、細粒度画像の詳細を復元する線形投影を用いたVAE分岐も導入する。
論文参考訳（メタデータ） (2025-12-02T09:02:20Z)
Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文参考訳（メタデータ） (2025-10-27T23:10:06Z)
Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers [22.72866404096086]
償却学習は、新しい問題への迅速な一般化を可能にするために、タスク間で共有される計算や帰納的バイアスを再利用する考え方である。現在のアプローチでは、推論でタスクデータを処理する能力が制限されることが多いため、大規模なデータセットへのスケールアップに苦労している。ミニバッチよりも解を段階的に洗練するモデルである反復的償却推論を提案する。
論文参考訳（メタデータ） (2025-10-13T14:40:47Z)
Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。 LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文参考訳（メタデータ） (2025-10-06T16:34:09Z)
Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文参考訳（メタデータ） (2025-07-11T08:00:47Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Diversified Sampling Improves Scaling LLM inference [31.18762591875725]
DivSamplingは、候補解の多様性を高めるために設計された、斬新で多用途なサンプリング技術である。理論解析により, 微妙な仮定の下では, 種々のプロンプトから発生する応答の誤り率は, 定常プロンプトによる応答よりも有意に低いことが示された。
論文参考訳（メタデータ） (2025-02-16T07:37:58Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文参考訳（メタデータ） (2024-08-25T04:07:18Z)
Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling [22.256068524699472]
本研究では,これらの問題に対処するために,Annealed Importance Smpling (AIS)アプローチを提案する。シークエンシャルモンテカルロサンプリング器とVIの強度を組み合わせることで、より広い範囲の後方分布を探索し、徐々にターゲット分布に接近する。実験結果から,本手法はより厳密な変動境界,高い対数類似度,より堅牢な収束率で最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-08-13T08:09:05Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models [15.969452637480167]
我々は、GAN(Generative Adversarial Networks)を適用するために、PPO(Maximal Policy Optimization)を提案する。 PPOは、最先端のデータセットに対して合成生成されたデータに基づいてトレーニングされたモデルの精度を約4%向上させる。
論文参考訳（メタデータ） (2024-06-17T10:22:00Z)
A Diffusion Model Framework for Unsupervised Neural Combinatorial Optimization [7.378582040635655]
現在のディープラーニングアプローチは、正確なサンプル確率を生み出す生成モデルに依存している。この研究は、この制限を解除し、高度に表現力のある潜在変数モデルを採用する可能性を開放する手法を導入する。我々は,データフリーなコンビネーション最適化におけるアプローチを実験的に検証し,幅広いベンチマーク問題に対して新しい最先端の手法を実現することを実証した。
論文参考訳（メタデータ） (2024-06-03T17:55:02Z)
Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文参考訳（メタデータ） (2023-09-12T13:03:47Z)
Efficient Marginalization of Discrete and Structured Latent Variables via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。典型的には、真の限界のサンプリングに基づく近似に頼っている。そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-07-03T19:36:35Z)
Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文参考訳（メタデータ） (2020-06-24T17:53:53Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。