論文の概要: On the Rejection Criterion for Proxy-based Test-time Alignment
- arxiv url: http://arxiv.org/abs/2604.16146v2
- Date: Mon, 20 Apr 2026 07:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.206011
- Title: On the Rejection Criterion for Proxy-based Test-time Alignment
- Title(参考訳): プロキシベースのテスト時間アライメントの拒絶基準について
- Authors: Ayoub Hammal, Pierre Zweigenbaum, Caio Corro,
- Abstract要約: 近年、プロキシとして小さなアライメントモデルに依存するテスト時間アライメント手法が提案されている。
我々は,不明瞭な言い回しのような言語現象のために,信頼度基準が不動機であると主張している。
本稿では,保守的自信に基づく新たな拒否基準を提案する。
- 参考スコア(独自算出の注目度): 6.949966663998242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent works proposed test-time alignment methods that rely on a small aligned model as a proxy that guides the generation of a larger base (unaligned) model. The implicit reward approach skews the large model distribution, whereas the nudging approach defers the generation of the next token to the small aligned model when the large base one is unconfident about its outcome. In this work, we first show that both approaches can be reduced to sampling from similar graphical models, where they differ only in the definition of a rejection criterion (or distribution). Moreover, we argue that the confidence criterion is ill-motivated due to linguistic phenomena like ambiguous phrasing. We propose a novel rejection criterion based on a conservative confidence bet. Experimentally, our novel approach outperforms previous work on several datasets.
- Abstract(参考訳): 近年の研究では、より大規模なベース(アンアライメント)モデルの生成を導くプロキシとして、小さなアライメントモデルに依存するテスト時アライメント手法が提案されている。
暗黙的な報奨アプローチは大きなモデル分布を歪ませるが、ヌーディングアプローチは、大きなベースがその結果に自信がないときに、小さなアライメントモデルに対する次のトークンの生成を無視する。
本研究は,両手法が類似のグラフィカルモデルからのサンプリングに還元可能であることを最初に示し,拒絶基準(あるいは分布)の定義においてのみ異なることを示す。
また,不明瞭な言い回しのような言語現象により,信頼度が低下しているとも主張する。
本稿では,保守的自信に基づく新たな拒否基準を提案する。
実験的に、我々の新しいアプローチは、過去のいくつかのデータセットよりも優れている。
関連論文リスト
- Sharp Convergence Rates for Masked Diffusion Models [53.117058231393834]
制約を克服するオイラー法に対する全変分に基づく解析法を開発した。
その結果、スコア推定の仮定を緩和し、パラメータ依存性を改善し、収束保証を確立する。
全体としては,CTMC軌道に沿った直接テレビによる誤り分解と,FHSのためのデカップリングに基づく経路解析を導入している。
論文 参考訳(メタデータ) (2026-02-26T00:47:51Z) - Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - Discrete Diffusion Models: Novel Analysis and New Sampler Guarantees [70.88473359544084]
離散拡散モデルに対する新たな解析的アプローチを導入し,正規性仮定の必要性を排除した。
標準的な$tau$-leaping法では、語彙サイズとともに線形にスケールするKL発散の収束保証を確立する。
我々のアプローチはより広く適用可能であり、他の広く使われているサンプルに対して最初の収束保証を提供する。
論文 参考訳(メタデータ) (2025-09-20T17:42:29Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Single-Model Attribution of Generative Models Through Final-Layer Inversion [16.506531590300806]
最終層逆転と異常検出に基づくオープンワールド設定における単一モデル属性に対する新しいアプローチを提案する。
得られた最終層インバージョンを凸ラッソ最適化問題に還元し,理論的に健全で計算効率がよいことを示す。
論文 参考訳(メタデータ) (2023-05-26T13:06:38Z) - Post-Selection Confidence Bounds for Prediction Performance [2.28438857884398]
機械学習では、潜在的に多くの競合モデルから有望なモデルを選択し、その一般化性能を評価することが重要な課題である。
本稿では,評価セットの予測性能に基づいて選択された複数のモデルに対して,有効な低信頼境界を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-24T13:28:43Z) - Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning [78.30395044401321]
我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
論文 参考訳(メタデータ) (2022-06-02T17:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。