論文の概要: CoVeR: Conformal Calibration for Versatile and Reliable Autoregressive Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2509.04733v1
- Date: Fri, 05 Sep 2025 01:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.44007
- Title: CoVeR: Conformal Calibration for Versatile and Reliable Autoregressive Next-Token Prediction
- Title(参考訳): CoVeR: 可逆かつ信頼性の高い自己回帰型次トーケン予測のための等角的校正法
- Authors: Yuzhu Chen, Yingjie Wang, Shunyu Liu, Yongcheng Jing, Dacheng Tao,
- Abstract要約: conformsctextCoVeRは、探索効率と多目的軌跡の必要性のバランスをとるモデルフリーデコード戦略である。
本研究では,conformsctextCoVeRがコンパクトな検索空間を同時に維持し,所望の軌跡に対して高いカバレッジの確率を保証することを示す。
- 参考スコア(独自算出の注目度): 49.09876340754804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive pre-trained models combined with decoding methods have achieved impressive performance on complex reasoning tasks. While mainstream decoding strategies such as beam search can generate plausible candidate sets, they often lack provable coverage guarantees, and struggle to effectively balance search efficiency with the need for versatile trajectories, particularly those involving long-tail sequences that are essential in certain real-world applications. To address these limitations, we propose \textsc{CoVeR}, a novel model-free decoding strategy wihtin the conformal prediction framework that simultaneously maintains a compact search space and ensures high coverage probability over desirable trajectories. Theoretically, we establish a PAC-style generalization bound, guaranteeing that \textsc{CoVeR} asymptotically achieves a coverage rate of at least $1 - \alpha$ for any target level $\alpha \in (0,1)$.
- Abstract(参考訳): 自己回帰事前学習モデルと復号法を組み合わせることで、複雑な推論タスクにおいて印象的なパフォーマンスを実現している。
ビームサーチのような主流のデコーディング戦略は、プラウティブルな候補セットを生成することができるが、しばしば証明可能なカバレッジ保証が欠如しており、探索効率を多元的トラジェクトリ(特に特定の現実世界のアプリケーションに不可欠な長いテールシーケンスを含む)の必要性と効果的にバランスさせるのに苦労している。
これらの制約に対処するために,コンパクトな探索空間を同時に維持し,所望の軌跡よりも高いカバレッジ確率を確保する,新しいモデル自由復号法である \textsc{CoVeR} を提案する。
理論的には、PAC型一般化境界を確立し、漸近的に、任意の対象レベル$\alpha \in (0,1)$に対して少なくとも1 - \alpha$のカバレッジ率を達成することを保証している。
関連論文リスト
- COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Rényi security framework against coherent attacks applied to decoy-state QKD [0.0]
我々は、コヒーレント攻撃下で量子鍵分布プロトコルの有限サイズセキュリティ証明のためのフレキシブルで堅牢なフレームワークを開発する。
提案手法は,最小限の要件を課しながら,幅広いプロトコルのクラスにわたる高い有限サイズ鍵レートを実現する。
論文 参考訳(メタデータ) (2025-04-16T16:54:23Z) - Guaranteed Generation from Large Language Models [28.157857382660563]
大規模言語モデル(LLM)は、様々なアプリケーションでますます使われている。
本稿では, 自己回帰的提案分布と拒絶サンプリングを組み合わせた, 単純かつ効果的なアプローチであるGUARDを提案する。
これらの実験により、GUARDは予測効率を高く向上した理想分布をほぼ保ちながら、完全な制約満足度を達成することが示された。
論文 参考訳(メタデータ) (2024-10-09T09:39:55Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。