論文の概要: On the Query Complexity of Verifier-Assisted Language Generation
- arxiv url: http://arxiv.org/abs/2502.12123v1
- Date: Mon, 17 Feb 2025 18:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:20.287769
- Title: On the Query Complexity of Verifier-Assisted Language Generation
- Title(参考訳): 検証者支援言語生成のクエリ複雑性について
- Authors: Edoardo Botta, Yuchen Li, Aashay Mehta, Jordan T. Ash, Cyril Zhang, Andrej Risteski,
- Abstract要約: 本研究では,事前学習した言語モデル生成器を用いて制約付き生成を推論するフレームワークを開発する。
検証者へのアクセスは、難解な問題(情報理論上または計算上)を、難解な問題にレンダリングすることができる。
トークンワイド・リジェクション・サンプリングのような単純なアルゴリズムでさえ、検証器へのアクセスによる大きなメリットを享受できることを示す。
- 参考スコア(独自算出の注目度): 35.43462431990329
- License:
- Abstract: Recently, a plethora of works have proposed inference-time algorithms (e.g. best-of-n), which incorporate verifiers to assist the generation process. Their quality-efficiency trade-offs have been empirically benchmarked on a variety of constrained generation tasks, but the algorithmic design landscape is still largely poorly understood. In this paper, we develop a mathematical framework for reasoning about constrained generation using a pre-trained language model generator oracle and a process verifier--which can decide whether a prefix can be extended to a string which satisfies the constraints of choice. We show that even in very simple settings, access to a verifier can render an intractable problem (information-theoretically or computationally) to a tractable one. In fact, we show even simple algorithms, like tokenwise rejection sampling, can enjoy significant benefits from access to a verifier. Empirically, we show that a natural modification of tokenwise rejection sampling, in which the sampler is allowed to "backtrack" (i.e., erase the final few generated tokens) has robust and substantive benefits over natural baselines (e.g. (blockwise) rejection sampling, nucleus sampling)--both in terms of computational efficiency, accuracy and diversity.
- Abstract(参考訳): 近年、多くの研究が推論時アルゴリズム(例えばベスト・オブ・n)を提案しており、検証器を組み込んで生成プロセスを支援している。
品質効率のトレードオフは、様々な制約のある生成タスクで実証的にベンチマークされてきたが、アルゴリズム設計の状況はいまだにほとんど理解されていない。
本稿では,事前訓練された言語モデル生成器とプロセス検証器を用いて制約生成を推論する数学的枠組みを構築し,その制約を満たす文字列にプレフィックスを拡張できるかどうかを判断する。
非常に単純な設定であっても、検証者へのアクセスは、難解な問題(情報理論上または計算上)を抽出可能な問題に適用できることを示す。
実際、トークンワイド・リジェクション・サンプリングのような単純なアルゴリズムでさえ、検証器へのアクセスによる大きなメリットを享受できることを示す。
経験的に,サンプルが"バックトラック"(最後の数個の生成トークンを消去する)を許されるような,トークン単位の拒否サンプリングの自然な変更は,計算効率,精度,多様性の両面において,自然なベースライン(ブロック単位の拒絶サンプリング,核サンプリングなど)に対して頑健かつ実質的な利点を有することを示す。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。
本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。
GenRMは差別的, DPO 検証, LLM-as-a-Judge に優れていた。
論文 参考訳(メタデータ) (2024-08-27T17:57:45Z) - Bisimulation Learning [55.859538562698496]
我々は、大きな、潜在的に無限の状態空間を持つ状態遷移系の有限バイシミュレートを計算する。
提案手法は,実際に行われている他の最先端ツールよりも高速な検証結果が得られる。
論文 参考訳(メタデータ) (2024-05-24T17:11:27Z) - Sparse Autoencoders Enable Scalable and Reliable Circuit Identification in Language Models [0.0]
本稿では,大規模言語モデルにおける解釈可能な回路を発見するための,効率的かつ堅牢な手法を提案する。
本稿では, 慎重に設計した正負の例に対して, スパースオートエンコーダを訓練する。
本研究は,スケーラブルかつ効率的な機械的解釈性を実現するための離散スパースオートエンコーダの実現を示唆するものである。
論文 参考訳(メタデータ) (2024-05-21T06:26:10Z) - A Block Metropolis-Hastings Sampler for Controllable Energy-based Text
Generation [78.81021361497311]
我々は,大規模言語モデルの反復的プロンプトを通じて,各ステップにおけるシーケンス全体の書き直しを提案する新しいメトロポリス・ハスティングス(MH)サンプリング器を開発した。
対象分布からより効率的かつ正確なサンプリングが可能となり, (b) 事前に固定するのではなく, サンプリング手順により生成長を決定することが可能となった。
論文 参考訳(メタデータ) (2023-12-07T18:30:15Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Batch Active Learning at Scale [39.26441165274027]
バッチクエリをラベル付けオラクルに適応的に発行するバッチアクティブラーニングは、この問題に対処するための一般的なアプローチである。
本研究では,大規模なバッチ設定に着目した効率的な能動学習アルゴリズムを解析する。
本研究では,不確実性と多様性の概念を組み合わせたサンプリング手法について,従来より数桁大きなバッチサイズ(100K-1M)に容易にスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-07-29T18:14:05Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。