論文の概要: A Regime Theory of Controller Class Selection for LLM Action Decisions
- arxiv url: http://arxiv.org/abs/2605.06339v1
- Date: Thu, 07 May 2026 14:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.898794
- Title: A Regime Theory of Controller Class Selection for LLM Action Decisions
- Title(参考訳): LLM行動決定のための制御クラス選択のレジーム理論
- Authors: Zhaoyang Jiang, Zhizhong Fu, Yunsoo Kim, Jiacong Mi, Zicheng Li, Xuanqi Peng, Honghan Wu,
- Abstract要約: コントローラを固定アクション、パーティションルータ、インスタンスレベルのコントローラ、プレゲートコントローラの4つのクラスにまとめる。
3つのデータ推定可能なボトルネックをクラス選択に変換する制度理論を実証する。
結果のバーンスタイン-タイト閾値は、一致する情報理論の下限を持ち、厳密なネスト付きクロスバリデーションは、確実に、最も近いクラスを選択する。
- 参考スコア(独自算出の注目度): 13.268450355990687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deployed language and vision-language models must decide, on each input, whether to answer directly, retrieve evidence, defer to a stronger model, or abstain. Contrary to the common monotonicity intuition, greater per-input expressivity is not uniformly beneficial in finite samples: under identical strict cross-validation, different benchmarks prefer different controller classes. This reflects a finite-sample limitation of instance-level uncertainty signals, which can be exhausted at a distribution-dependent scale. We organize controllers into a nested lattice of four classes: fixed actions, partition routers, instance-level controllers, and prior-gated controllers, ordered by complexity. We prove a regime theory that turns three data-estimable bottlenecks into a class choice: how much improvement is possible beyond the best fixed action, whether there are enough samples for instance-level controllers to make reliable decisions, and how much improvement a coarse partition router can recover when instance-level signal is unreliable. The resulting Bernstein-tight threshold has a matching information-theoretic lower bound, and strict nested cross-validation provably selects a near-best class. Across SMS-Spam, HallusionBench, A-OKVQA, and FOLIO, the predicted class matches the empirical winner; the prior-gated controller wins on TextVQA when OCR tokens supply a label-free prediction-time prior. Code is available at https://github.com/Anonymous-Awesome-Submissions/Regime-Theory.
- Abstract(参考訳): デプロイされた言語とビジョン言語モデルは、各入力に対して、直接答えるか、証拠を取得するか、より強いモデルに延期するか、または断念するかを決定する必要がある。
共通の単調性直観とは対照的に、入出力毎の表現性は有限標本において一様に有益ではない:同じ厳密なクロスバリデーションの下では、異なるベンチマークは異なるコントローラクラスを好む。
これは、インスタンスレベルの不確実性信号の有限サンプル制限を反映しており、分散依存スケールで消耗することができる。
コントローラを固定アクション、パーティションルータ、インスタンスレベルのコントローラ、複雑性によって順序付けられたプレゲートコントローラの4つのクラスからなるネスト格子にまとめる。
我々は,3つのデータ推定可能なボトルネックをクラス選択に変換するシステム理論を証明した:最高の固定動作以上の改善が可能か,信頼性の高い決定を行うのに十分なインスタンスレベルのコントローラのサンプルが存在するか,粗いパーティションルータが信頼性の低い場合にどの程度の改善を回復できるか。
結果のバーンスタイン-タイト閾値は、一致する情報理論の下限を持ち、厳密なネスト付きクロスバリデーションは、確実に、最も近いクラスを選択する。
SMS-Spam、HalusionBench、A-OKVQA、FOLIOでは、予測クラスは経験的な勝者と一致している。
コードはhttps://github.com/Anonymous-Awesome-Submissions/Regime-Theoryで入手できる。
関連論文リスト
- CITE: Anytime-Valid Statistical Inference in LLM Self-Consistency [10.34950275095264]
本研究では,モデル応答分布の特異なモードとして,あらかじめ指定した対象解の任意の正当性検証について検討する。
本稿では,任意の所定のレベルで偽認証を確実に制御するCITEアルゴリズムを用いた区間統一試験による認証を提案する。
また、カテゴリセットなしの停止時間率を証明し、メインレジーム内の定数に一致するミニマックスの下限を確立し、信頼度の高い投票に拡張する。
論文 参考訳(メタデータ) (2026-05-07T08:41:51Z) - Taming CATS: Controllable Automatic Text Simplification through Instruction Fine-Tuning with Control Tokens [2.4713807020542773]
自動テキストの簡易化における制御性は、データと評価によって著しく制限される。
本稿では,個別制御トークンを用いた命令微調整に基づくドメインに依存しないCATSフレームワークを提案する。
標準の単純化と類似度指標は制御の計測に不十分であることを示す。
論文 参考訳(メタデータ) (2026-04-02T08:44:17Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Unifying Token and Span Level Supervisions for Few-Shot Sequence
Labeling [18.24907067631541]
短いショットシーケンスラベリングは、少数のラベル付きサンプルに基づいて新しいクラスを特定することを目的としている。
本稿では,数ショットのシーケンスラベリングのためのCDAP(Consistent Dual Adaptive Prototypeal)ネットワークを提案する。
本モデルでは,3つのベンチマークデータセットに対して,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2023-07-16T04:50:52Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Loss Function Entropy Regularization for Diverse Decision Boundaries [0.0]
損失関数エントロピー正規化(Los Function Entropy Regularization, LFER)は、事前学習および対照的学習目的関数に付加される正規化用語である。
LFERは最先端技術に匹敵する精度を持つアンサンブルを生成できるが、決定境界は様々であることを示す。
論文 参考訳(メタデータ) (2022-04-30T10:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。