論文の概要: Conformal Arbitrage: Risk-Controlled Balancing of Competing Objectives in Language Models
- arxiv url: http://arxiv.org/abs/2506.00911v1
- Date: Sun, 01 Jun 2025 08:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.786252
- Title: Conformal Arbitrage: Risk-Controlled Balancing of Competing Objectives in Language Models
- Title(参考訳): Conformal Arbitrage: 言語モデルにおける競合対象のリスク制御バランス
- Authors: William Overman, Mohsen Bayati,
- Abstract要約: Conformal Arbitrageは、データ駆動しきい値を学び、主目的のために最適化されたプライマリモデルとより保守的なGuardianの間を仲介するフレームワークです。
提案手法は,精度において,モデル間のランダムなルーティングに一致したコストで優れた性能を示す。
- 参考スコア(独自算出の注目度): 5.294604210205507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language model deployments must often balance competing objectives, for example, helpfulness versus harmlessness, cost versus accuracy, and reward versus safety. We introduce Conformal Arbitrage, a post hoc framework that learns a data driven threshold to mediate between a Primary model optimized for a primary objective and a more conservative Guardian which could be another model or a human domain expert aligned with a guardrail objective. The threshold is calibrated with conformal risk control, yielding finite sample, distribution free guarantees that the long run frequency of undesirable events, such as factual errors or safety violations, does not exceed a user specified quota. Because Conformal Arbitrage operates wholly at the API level, without requiring access to model logits or updating model weights, it complements weight based alignment techniques and integrates seamlessly with existing cost aware cascades. Empirically, Conformal Arbitrage traces an efficient frontier, allowing users to define an acceptable performance level for one objective while maximizing utility in another. We observe that our method outperforms, in terms of accuracy, cost matched random routing between models. These properties make Conformal Arbitrage a practical, theoretically grounded tool for trustworthy and economical deployment of large language models across a broad range of potentially competing objectives.
- Abstract(参考訳): 現代の言語モデルのデプロイメントは、例えば、有用性対無害性、コスト対正確性、報酬対安全といった、競合する目標のバランスを取る必要がある。
Conformal Arbitrageは、データ駆動しきい値を学び、一次目的のために最適化されたプライマリモデルとより保守的なガーディアンの間を仲介する、ポストホックフレームワークである。
閾値は共形リスク制御で校正され、有限サンプルを産出するが、分布自由は、偽りのエラーや安全違反などの望ましくない事象の長時間の頻度が、ユーザの指定したクォータを超えないことを保証する。
Conformal ArbitrageはAPIレベルで完全に動作するため、モデルロジットへのアクセスやモデルウェイトのアップデートを必要とせず、ウェイトベースのアライメントテクニックを補完し、既存のコストを意識したカスケードとシームレスに統合する。
実証的には、Conformal Arbitrageは効率的なフロンティアをトレースし、ある目的に対して許容されるパフォーマンスレベルを定義しながら、別の目的においてユーティリティを最大化することができる。
提案手法は,精度において,モデル間のランダムなルーティングに一致したコストで優れた性能を示す。
これらの特性により、Conformal Arbitrageは、潜在的に競合する幅広い目的に対して、信頼性と経済的に大きな言語モデルをデプロイするための実用的、理論的に基礎付けられたツールとなる。
関連論文リスト
- Enforcing Hard Linear Constraints in Deep Learning Models with Decision Rules [8.098452803458253]
本稿では、入力依存線形等式とニューラルネットワーク出力の不等式制約を強制するモデルに依存しないフレームワークを提案する。
このアーキテクチャは、予測精度のために訓練されたタスクネットワークと、実行時の決定ルールと堅牢な最適化を用いてトレーニングされた安全なネットワークを組み合わせることで、入力空間全体の実現可能性を保証する。
論文 参考訳(メタデータ) (2025-05-20T03:09:44Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Risk-Controlling Model Selection via Guided Bayesian Optimization [35.53469358591976]
他の競合するメトリクスに対して有用でありながら、特定のリスクに対するユーザ指定の制限に固執する構成を見つけます。
提案手法は,指定された関心領域に属する最適構成の集合を同定する。
提案手法は,低誤差率,等式予測,スプリアス相関処理,生成モデルにおける速度と歪みの管理,計算コストの削減など,複数のデシダラタを用いたタスクに対する有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T07:29:44Z) - Mixing Classifiers to Alleviate the Accuracy-Robustness Trade-Off [8.169499497403102]
本稿では、標準ニューラルネットワークとロバストニューラルネットワークの出力確率を混合した理論的動機付け型定式化を提案する。
数値実験により,混合分類器は精度・損耗トレードオフを著しく改善することを確認した。
論文 参考訳(メタデータ) (2023-11-26T02:25:30Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。