論文の概要: RPRA: Predicting an LLM-Judge for Efficient but Performant Inference
- arxiv url: http://arxiv.org/abs/2604.12634v1
- Date: Tue, 14 Apr 2026 12:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.42629
- Title: RPRA: Predicting an LLM-Judge for Efficient but Performant Inference
- Title(参考訳): RPRA: 効率的かつ高性能な推論のためのLLM-Judge予測
- Authors: Dylan R. Ashley, Gaël Le Lan, Changsheng Zhao, Naina Dhingra, Zhipeng Cai, Ernie Chang, Mingchen Zhuge, Yangyang Shi, Vikas Chandra, Jürgen Schmidhuber,
- Abstract要約: 大規模言語モデル(LLM)は、計算効率(例えばパラメータの数)と出力品質の基本的なトレードオフに直面している。
我々は、ゼロショット予測、コンテキスト内レポートカードを用いた予測、教師付き微調整の3つのアプローチを評価する。
- 参考スコア(独自算出の注目度): 46.77119317314821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) face a fundamental trade-off between computational efficiency (e.g., number of parameters) and output quality, especially when deployed on computationally limited devices such as phones or laptops. One way to address this challenge is by following the example of humans and have models ask for help when they believe they are incapable of solving a problem on their own; we can overcome this trade-off by allowing smaller models to respond to queries when they believe they can provide good responses, and deferring to larger models when they do not believe they can. To this end, in this paper, we investigate the viability of Predict-Answer/Act (PA) and Reason-Predict-Reason-Answer/Act (RPRA) paradigms where models predict -- prior to responding -- how an LLM judge would score their output. We evaluate three approaches: zero-shot prediction, prediction using an in-context report card, and supervised fine-tuning. Our results show that larger models (particularly reasoning models) perform well when predicting generic LLM judges zero-shot, while smaller models can reliably predict such judges well after being fine-tuned or provided with an in-context report card. Altogether, both approaches can substantially improve the prediction accuracy of smaller models, with report cards and fine-tuning achieving mean improvements of up to 55% and 52% across datasets, respectively. These findings suggest that models can learn to predict their own performance limitations, paving the way for more efficient and self-aware AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、計算効率(例えばパラメータの数)と出力品質の基本的なトレードオフに直面している。
この課題に対処する1つの方法は、人間の例に従い、自分たちで問題を解決することができないと信じているときにモデルに助けを求めることである。
そこで本論文では, LLM の審査員が出力を評価する方法として, 予測/回答/回答/回答/回答/回答/回答(RPRA, Predict-Answer/Act)と予測/回答/回答/回答(Reason-Predict-Reason-Answer/Act)のパラダイムについて検討する。
我々は、ゼロショット予測、コンテキスト内レポートカードを用いた予測、教師付き微調整の3つのアプローチを評価する。
以上の結果から,より大規模なモデル(特に推論モデル)では,ジェネリックLLMがゼロショットを判定するのに対して,より小さなモデルでは微調整されたり,コンテキスト内レポートカードが提供されたりして,その判断を確実に予測できることがわかった。
さらに、どちらのアプローチもより小さなモデルの予測精度を大幅に向上させ、レポートカードと微調整により、データセット間でそれぞれ55%と52%の平均的な改善を実現している。
これらの結果は、モデルが自身のパフォーマンス制限を予測し、より効率的で自己認識のAIシステムへの道を開くことができることを示唆している。
関連論文リスト
- Confidence-Driven Multi-Scale Model Selection for Cost-Efficient Inference [10.009730627424629]
大規模言語モデル(LLM)は、さまざまな自然言語タスクに対する推論に革命をもたらした。
本稿では,信頼度推定に基づいて最適モデルを動的に選択する信頼性駆動型戦略を提案する。
論文 参考訳(メタデータ) (2026-02-25T16:38:03Z) - Enhanced Multi-model Online Conformal Prediction [25.495949162960624]
コンフォーマル予測(Conformal prediction)は、未確認データの予測セットを構成する不確実性定量化のためのフレームワークである。
これらの予測セットの効率は、そのサイズによって測定され、基礎となる学習モデルの選択に依存する。
この研究は、計算複雑性を低減し、予測効率を向上させる、新しいマルチモデルオンライン共形予測アルゴリズムを開発する。
論文 参考訳(メタデータ) (2026-01-04T23:44:43Z) - Using LLMs to Directly Guess Conditional Expectations Can Improve Efficiency in Causal Estimation [0.3222802562733787]
過去のデータに基づいて学習した生成モデルによる予測は,これらの推定器の性能向上に有効であることを示す。
オンラインジュエリーオークションの小さなデータセットを用いてケーススタディを考察し,LLM生成推定を予測子として含めることによって推定効率が向上することを示した。
論文 参考訳(メタデータ) (2025-10-09T03:34:06Z) - Fine-tuning for Better Few Shot Prompting: An Empirical Comparison for Short Answer Grading [0.5825410941577593]
ファインチューニング手法は歴史的に多くのユーザにとってアクセス不能な大規模計算クラスタを必要としてきた。
OpenAIの微調整サービスのような新しいクローズドモデルアプローチは、100の例で結果をもたらす。
これら2つの微調整手法の評価を行い, 自動短時間解答グレーディングのための数ショットプロンプトとの相互作用を測定した。
論文 参考訳(メタデータ) (2025-08-06T03:52:55Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Bayes DistNet -- A Robust Neural Network for Algorithm Runtime
Distribution Predictions [1.8275108630751844]
ランダム化アルゴリズムは制約満足度問題 (CSP) やブール満足度問題 (SAT) の多くの最先端の解法で用いられている。
従来の最先端の手法は、入力インスタンスが従う固定パラメトリック分布を直接予測しようとする。
この新モデルは,低観測環境下での堅牢な予測性能と,検閲された観測処理を実現する。
論文 参考訳(メタデータ) (2020-12-14T01:15:39Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。