論文の概要: Improving Constrained Generation in Language Models via Self-Distilled Twisted Sequential Monte Carlo
- arxiv url: http://arxiv.org/abs/2507.02315v1
- Date: Thu, 03 Jul 2025 05:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.675866
- Title: Improving Constrained Generation in Language Models via Self-Distilled Twisted Sequential Monte Carlo
- Title(参考訳): モンテカルロの自己蒸留による言語モデルにおける制約生成の改善
- Authors: Sooyeon Kim, Giung Nam, Juho Lee,
- Abstract要約: 制約付き生成設定では、スパース信号と非形式的な報酬信号によって学習が困難になる。
自己蒸留によってベースモデルを反復的に精錬することにより、モデルとターゲットとの整合性を徐々に高めることにより、この問題を軽減できることが示される。
- 参考スコア(独自算出の注目度): 15.169258833686413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has framed constrained text generation with autoregressive language models as a probabilistic inference problem. Among these, Zhao et al. (2024) introduced a promising approach based on twisted Sequential Monte Carlo, which incorporates learned twist functions and twist-induced proposals to guide the generation process. However, in constrained generation settings where the target distribution concentrates on outputs that are unlikely under the base model, learning becomes challenging due to sparse and uninformative reward signals. We show that iteratively refining the base model through self-distillation alleviates this issue by making the model progressively more aligned with the target, leading to substantial gains in generation quality.
- Abstract(参考訳): 最近の研究は、確率論的推論問題として、自己回帰言語モデルによる制約付きテキスト生成の枠組みを定めている。
このうち、Zhao et al (2024) は、学習されたツイスト関数とツイストによって引き起こされる提案を組み込んだ、ツイスト付きシークエンシャルモンテカルロに基づく有望なアプローチを導入した。
しかし、ベースモデルでは不可能な出力に対象分布が集中する制約付き生成環境では、疎小かつ非形式的な報奨信号によって学習が困難になる。
本研究では, モデルとターゲットとの整合性を徐々に向上させ, 生成品質を大幅に向上させることにより, 自己蒸留によるベースモデルの反復的精錬がこの問題を軽減することを示す。
関連論文リスト
- Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension [6.602323571343169]
学習前生成言語モデル(PLM)の微調整段階で統合されたQASEは,その性能を著しく向上させる。
QASEモジュールの有効性は、さまざまなデータセットで厳格にテストされている。
論文 参考訳(メタデータ) (2024-04-27T19:42:51Z) - Heat Death of Generative Models in Closed-Loop Learning [63.83608300361159]
本研究では、独自の学習データセットに加えて、生成したコンテンツをフィードバックする生成モデルの学習ダイナミクスについて検討する。
各イテレーションで十分な量の外部データが導入されない限り、非自明な温度がモデルを退化させることを示す。
論文 参考訳(メタデータ) (2024-04-02T21:51:39Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。