論文の概要: CoVeR: Conformal Calibration for Versatile and Reliable Autoregressive Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2509.04733v1
- Date: Fri, 05 Sep 2025 01:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.44007
- Title: CoVeR: Conformal Calibration for Versatile and Reliable Autoregressive Next-Token Prediction
- Title(参考訳): CoVeR: 可逆かつ信頼性の高い自己回帰型次トーケン予測のための等角的校正法
- Authors: Yuzhu Chen, Yingjie Wang, Shunyu Liu, Yongcheng Jing, Dacheng Tao,
- Abstract要約: conformsctextCoVeRは、探索効率と多目的軌跡の必要性のバランスをとるモデルフリーデコード戦略である。
本研究では,conformsctextCoVeRがコンパクトな検索空間を同時に維持し,所望の軌跡に対して高いカバレッジの確率を保証することを示す。
- 参考スコア(独自算出の注目度): 49.09876340754804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive pre-trained models combined with decoding methods have achieved impressive performance on complex reasoning tasks. While mainstream decoding strategies such as beam search can generate plausible candidate sets, they often lack provable coverage guarantees, and struggle to effectively balance search efficiency with the need for versatile trajectories, particularly those involving long-tail sequences that are essential in certain real-world applications. To address these limitations, we propose \textsc{CoVeR}, a novel model-free decoding strategy wihtin the conformal prediction framework that simultaneously maintains a compact search space and ensures high coverage probability over desirable trajectories. Theoretically, we establish a PAC-style generalization bound, guaranteeing that \textsc{CoVeR} asymptotically achieves a coverage rate of at least $1 - \alpha$ for any target level $\alpha \in (0,1)$.
- Abstract(参考訳): 自己回帰事前学習モデルと復号法を組み合わせることで、複雑な推論タスクにおいて印象的なパフォーマンスを実現している。
ビームサーチのような主流のデコーディング戦略は、プラウティブルな候補セットを生成することができるが、しばしば証明可能なカバレッジ保証が欠如しており、探索効率を多元的トラジェクトリ(特に特定の現実世界のアプリケーションに不可欠な長いテールシーケンスを含む)の必要性と効果的にバランスさせるのに苦労している。
これらの制約に対処するために,コンパクトな探索空間を同時に維持し,所望の軌跡よりも高いカバレッジ確率を確保する,新しいモデル自由復号法である \textsc{CoVeR} を提案する。
理論的には、PAC型一般化境界を確立し、漸近的に、任意の対象レベル$\alpha \in (0,1)$に対して少なくとも1 - \alpha$のカバレッジ率を達成することを保証している。
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - GARDO: Reinforcing Diffusion Models without Reward Hacking [54.841464430913476]
オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
論文 参考訳(メタデータ) (2025-12-30T10:55:45Z) - Probabilistic Robustness Analysis in High Dimensional Space: Application to Semantic Segmentation Network [6.587910936799125]
本稿では,アーキテクチャに依存しない,スケーラブルで高次元出力が可能な確率的検証フレームワークを提案する。
提案手法は,サンプルベースリーチビリティ解析と共形推論(CI)を組み合わせて,証明可能な保証を提供する。
提案手法は,SOTAに比べて厳密な境界を保ちながら,信頼性の高い安全保証を提供することを示す。
論文 参考訳(メタデータ) (2025-09-15T12:25:25Z) - Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL [6.224756774400233]
本研究では, 平均回帰MDPにおけるオフライン強化学習について検討し, 分散シフトと非一様カバレッジの観点から, さらなる課題を提示する。
対象とする政策,特にバイアススパンと新しい政策が半径を超えることのみに基づき,平均逆オフラインRLに束縛された最初の完全単一政治サンプルの複雑性が生じる。
論文 参考訳(メタデータ) (2025-06-26T00:22:39Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Rényi security framework against coherent attacks applied to decoy-state QKD [0.0]
我々は、コヒーレント攻撃下で量子鍵分布プロトコルの有限サイズセキュリティ証明のためのフレキシブルで堅牢なフレームワークを開発する。
提案手法は,最小限の要件を課しながら,幅広いプロトコルのクラスにわたる高い有限サイズ鍵レートを実現する。
論文 参考訳(メタデータ) (2025-04-16T16:54:23Z) - Robust Optimization with Diffusion Models for Green Security [49.68562792424776]
グリーンセキュリティでは、効果的パトロールを計画するためには、密猟、違法伐採、違法漁などの敵の行動を予測する必要がある。
本稿では,その強い分布適合性を利用した逆挙動モデリングのための条件付き拡散モデルを提案する。
混合戦略の混合戦略を導入し, 正確なサンプリングを行うために, ツイスト型シークエンシャルモンテカルロ (SMC) サンプリング装置を用いる。
論文 参考訳(メタデータ) (2025-02-19T05:30:46Z) - Guaranteed Generation from Large Language Models [28.157857382660563]
大規模言語モデル(LLM)は、様々なアプリケーションでますます使われている。
本稿では, 自己回帰的提案分布と拒絶サンプリングを組み合わせた, 単純かつ効果的なアプローチであるGUARDを提案する。
これらの実験により、GUARDは予測効率を高く向上した理想分布をほぼ保ちながら、完全な制約満足度を達成することが示された。
論文 参考訳(メタデータ) (2024-10-09T09:39:55Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。