論文の概要: Guaranteed Generation from Large Language Models
- arxiv url: http://arxiv.org/abs/2410.06716v1
- Date: Wed, 9 Oct 2024 09:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:00:11.282942
- Title: Guaranteed Generation from Large Language Models
- Title(参考訳): 大規模言語モデルからの保証された生成
- Authors: Minbeom Kim, Thibaut Thonet, Jos Rozen, Hwaran Lee, Kyomin Jung, Marc Dymetman,
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションでますます使われている。
本稿では, 自己回帰的提案分布と拒絶サンプリングを組み合わせた, 単純かつ効果的なアプローチであるGUARDを提案する。
これらの実験により、GUARDは予測効率を高く向上した理想分布をほぼ保ちながら、完全な制約満足度を達成することが示された。
- 参考スコア(独自算出の注目度): 28.157857382660563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly used across various applications, there is a growing need to control text generation to satisfy specific constraints or requirements. This raises a crucial question: Is it possible to guarantee strict constraint satisfaction in generated outputs while preserving the distribution of the original model as much as possible? We first define the ideal distribution - the one closest to the original model, which also always satisfies the expressed constraint - as the ultimate goal of guaranteed generation. We then state a fundamental limitation, namely that it is impossible to reach that goal through autoregressive training alone. This motivates the necessity of combining training-time and inference-time methods to enforce such guarantees. Based on this insight, we propose GUARD, a simple yet effective approach that combines an autoregressive proposal distribution with rejection sampling. Through GUARD's theoretical properties, we show how controlling the KL divergence between a specific proposal and the target ideal distribution simultaneously optimizes inference speed and distributional closeness. To validate these theoretical concepts, we conduct extensive experiments on two text generation settings with hard-to-satisfy constraints: a lexical constraint scenario and a sentiment reversal scenario. These experiments show that GUARD achieves perfect constraint satisfaction while almost preserving the ideal distribution with highly improved inference efficiency. GUARD provides a principled approach to enforcing strict guarantees for LLMs without compromising their generative capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なアプリケーションにまたがって使われるようになっているため、特定の制約や要求を満たすためにテキスト生成を制御する必要性が高まっている。
生成した出力の厳密な制約満足度を保証すると同時に、オリジナルモデルの分布を可能な限り保存することは可能ですか?
まず第一に、表現された制約を常に満足する理想分布(元モデルに最も近い分布)を、保証された生成の最終的な目標として定義する。
そして、私たちは基本的な制限を述べます。つまり、自己回帰的なトレーニングだけでその目標を達成することは不可能です。
このことは、そのような保証を強制するためにトレーニング時間と推論時間の組み合わせの必要性を動機付けている。
この知見に基づいて, 自己回帰的提案分布と拒絶サンプリングを組み合わせた, 単純かつ効果的なアプローチであるGUARDを提案する。
GUARDの理論的性質を通じて、特定の提案と対象の理想分布とのKL分散の制御が、推論速度と分布の近接性を同時に最適化することを示す。
これらの理論的概念を検証するため、我々は、難易度制約のある2つのテキスト生成設定(語彙制約シナリオと感情逆転シナリオ)について広範な実験を行った。
これらの実験により、GUARDは予測効率を高く向上した理想分布をほぼ保ちながら、完全な制約満足度を達成することが示された。
GUARDは、その生成能力を損なうことなく、LSMの厳格な保証を強制するための原則化されたアプローチを提供する。
関連論文リスト
- DiOpt: Self-supervised Diffusion for Constrained Optimization [46.75288477458697]
DiOptは、反復的な自己学習を通じて、最適に近い解分布を体系的に学習する新しい拡散パラダイムである。
我々の知る限りでは、DiOptは自己教師付き拡散と厳しい制約を満たす最初の成功例である。
論文 参考訳(メタデータ) (2025-02-14T17:43:08Z) - Deep Generative Models with Hard Linear Equality Constraints [24.93865980946986]
本稿では,DGMにハード制約を強制し,制約に準拠したデータを生成する確率論的健全なアプローチを提案する。
5つの画像データセットと3つの科学的応用に関する様々なDGMモデルアーキテクチャを用いて実験を行った。
ジェネレーションにおける制約の満足度を保証するだけでなく、各ベンチマークの他のメソッドよりも優れた生成性能をアーカイブしています。
論文 参考訳(メタデータ) (2025-02-08T02:53:32Z) - Controllable Generation via Locally Constrained Resampling [77.48624621592523]
本研究では, ベイズ条件付けを行い, 制約条件下でサンプルを描画する, トラクタブルな確率的手法を提案する。
提案手法はシーケンス全体を考慮し,現行のグリード法よりも大域的に最適に制約された生成を導出する。
提案手法は, 有害な世代からモデル出力を分離し, 脱毒化に対する同様のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T00:49:53Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - f-FERM: A Scalable Framework for Robust Fair Empirical Risk Minimization [9.591164070876689]
本稿では、f-divergence measures(f-FERM)に基づく公正な経験的リスクに対する統一的な最適化フレームワークを提案する。
さらに,f-FERMによるほぼ全てのバッチサイズに対するフェアネス・精度トレードオフの優位性を実証した。
我々の拡張は、不確実集合として$L_p$ノルムの下で f-FERM の目的を分布的に頑健に最適化する手法に基づいている。
論文 参考訳(メタデータ) (2023-12-06T03:14:16Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。