論文の概要: Test-time Verification via Optimal Transport: Coverage, ROC, & Sub-optimality
- arxiv url: http://arxiv.org/abs/2510.18982v1
- Date: Tue, 21 Oct 2025 18:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.427254
- Title: Test-time Verification via Optimal Transport: Coverage, ROC, & Sub-optimality
- Title(参考訳): 最適輸送によるテスト時間検証:カバー,ROC,サブ最適性
- Authors: Arpan Mukherjee, Marcello Bullo, Debabrota Basu, Deniz Gündüz,
- Abstract要約: 検証によるテストタイムのスケーリングは、大規模言語モデルのパフォーマンス向上を約束している。
検証の効果は、(i)ジェネレータのカバレッジ、(ii)検証器の収束領域(ROC)、(iii)サンプリングアルゴリズムの準最適性の3つの相互作用を通して現れる。
本稿では,輸送問題として検証可能なテストタイムスケーリングの枠組みを定め,カバレッジ,ROC,サブ最適性の相互作用を特徴付ける。
- 参考スコア(独自算出の注目度): 53.03186946689658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While test-time scaling with verification has shown promise in improving the performance of large language models (LLMs), the role of the verifier and its imperfections remain underexplored. The effect of verification manifests through interactions of three quantities: (i) the generator's coverage, (ii) the verifier's region of convergence (ROC), and (iii) the sampling algorithm's sub-optimality. Though recent studies capture subsets of these factors, a unified framework quantifying the geometry of their interplay is missing. We frame verifiable test-time scaling as a transport problem. This characterizes the interaction of coverage, ROC, and sub-optimality, and uncovers that the sub-optimality--coverage curve exhibits three regimes. A transport regime -- where sub-optimality increases with coverage, a policy improvement regime -- where sub-optimality may decrease with coverage, depending on the verifier's ROC, and a saturation regime -- where sub-optimality plateaus, unaffected by coverage. We further propose and analyze two classes of sampling algorithms -- sequential and batched, and examine how their computational complexities shape these trade-offs. Empirical results with Qwen, Llama, and Gemma models corroborate our theoretical findings.
- Abstract(参考訳): 検証によるテストタイムスケーリングは,大規模言語モデル(LLM)の性能向上を約束する一方で,検証者の役割とその不完全性は未解明のままである。
3つの量の相互作用による検証の効果:
i)ジェネレータのカバレッジ
(二 検証者の収束領域(ROC)及び
3)サンプリングアルゴリズムの準最適性。
近年の研究はこれらの要素のサブセットを捉えているが、それらの相互作用の幾何学を定量化する統一された枠組みは欠落している。
輸送問題としてテストタイムのスケーリングを検証する。
このことは、カバレッジ、ROC、サブ最適性の相互作用を特徴とし、サブ最適性-カバレッジ曲線が3つの状態を示すことを明らかにしている。それに伴い、サブ最適性が増大する輸送体制、政策改善体制、検証者のROCによるサブ最適性が減少する可能性がある政策改善体制、そして、サブ最適性プラトーがカバーによって影響を受けない飽和体制。
さらに、逐次的およびバッチ化されたサンプリングアルゴリズムの2つのクラスを提案し、それらの計算複雑性がこれらのトレードオフをどのように形成するかを考察する。
Qwen, Llama, Gemmaモデルによる実験結果は、我々の理論的な知見を裏付けるものである。
関連論文リスト
- Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Topological Adaptive Least Mean Squares Algorithms over Simplicial Complexes [13.291627429657416]
本稿では, 単体錯体上での動的流れ信号を処理するための新しい適応フレームワークを提案する。
本稿では,時間変化のあるエッジサブセット上で観測されたストリーミング信号を効率的に処理するトポロジカルLMSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-29T06:55:19Z) - Fractional Correspondence Framework in Detection Transformer [13.388933240897492]
Detection Transformer (DETR) はオブジェクト検出タスクのマッチングプロセスを大幅に単純化した。
このアルゴリズムは、予測された有界箱とトレーニング中の接地的アノテーションとの最適な1対1マッチングを容易にする。
本稿では,予測と地上の真実を整合させるコストを捉え,最も正確な対応を見つけるためのフレキシブルマッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:29:20Z) - Verification of Geometric Robustness of Neural Networks via Piecewise Linear Approximation and Lipschitz Optimisation [57.10353686244835]
我々は、回転、スケーリング、せん断、翻訳を含む入力画像の幾何学的変換に対するニューラルネットワークの検証の問題に対処する。
提案手法は, 分枝・分枝リプシッツと組み合わせたサンプリングおよび線形近似を用いて, 画素値に対する楽音線形制約を求める。
提案手法では,既存の手法よりも最大32%の検証ケースが解決されている。
論文 参考訳(メタデータ) (2024-08-23T15:02:09Z) - Secure Hierarchical Federated Learning in Vehicular Networks Using Dynamic Client Selection and Anomaly Detection [10.177917426690701]
階層的フェデレートラーニング(HFL)は、車両ネットワークにおける敵または信頼できない車両の課題に直面している。
本研究では,動的車両選択とロバストな異常検出機構を統合した新しい枠組みを提案する。
提案アルゴリズムは,強烈な攻撃条件下においても顕著なレジリエンスを示す。
論文 参考訳(メタデータ) (2024-05-25T18:31:20Z) - Efficient Transfer Learning via Causal Bounds [8.981637739384674]
我々は、因果側情報がどのようにオンライン学習を加速するかを分析し、データ削減の実験を行う。
我々の分析は、因果側情報がどのようにオンライン学習を加速させるか、およびデータ削減の実験を正確に特徴付ける。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。
ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。
さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文 参考訳(メタデータ) (2020-12-28T05:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。