論文の概要: Adaptive Contracts for Cost-Effective AI Delegation
- arxiv url: http://arxiv.org/abs/2603.17212v1
- Date: Tue, 17 Mar 2026 23:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.444335
- Title: Adaptive Contracts for Cost-Effective AI Delegation
- Title(参考訳): コスト効果のあるAIデリゲーションのためのアダプティブコントラクト
- Authors: Eden Saig, Tamar Garbuz, Ariel D. Procaccia, Inbal Talgam-Cohen, Jamie Tucker-Foltz,
- Abstract要約: 我々はAIデリゲートの適応契約を導入し、より詳細な評価を選択的に行えるようにした。
我々は、自然な仮定の下で最適な適応契約を計算するための効率的なアルゴリズムを提供する。
質問応答とコード生成データセットを用いて,非適応ベースラインに対する適応性の利点を実証的に実証した。
- 参考スコア(独自算出の注目度): 27.781569320588304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When organizations delegate text generation tasks to AI providers via pay-for-performance contracts, expected payments rise when evaluation is noisy. As evaluation methods become more elaborate, the economic benefits of decreased noise are often overshadowed by increased evaluation costs. In this work, we introduce adaptive contracts for AI delegation, which allow detailed evaluation to be performed selectively after observing an initial coarse signal in order to conserve resources. We make three sets of contributions: First, we provide efficient algorithms for computing optimal adaptive contracts under natural assumptions or when core problem dimensions are small, and prove hardness of approximation in the general unstructured case. We then formulate alternative models of randomized adaptive contracts and discuss their benefits and limitations. Finally, we empirically demonstrate the benefits of adaptivity over non-adaptive baselines using question-answering and code-generation datasets.
- Abstract(参考訳): 組織が報酬対パフォーマンス契約を通じてテキスト生成タスクをAIプロバイダに委譲すると、評価がうるさくなり、期待される支払いが増加する。
評価手法がより精巧になるにつれて、騒音の低減による経済的利益は、評価コストの増加によって過度に隠蔽されることが多い。
本研究では,資源の保存のために,初期粗い信号を観察した後,詳細な評価を選択的に行うことができるAIデリゲートの適応契約を導入する。
まず、自然な仮定やコア問題次元が小さい場合の最適適応契約を計算するための効率的なアルゴリズムを提供し、一般的な非構造化の場合において近似の困難さを証明します。
次に、ランダム化適応契約の代替モデルを定式化し、それらの利点と制限について議論する。
最後に、質問応答とコード生成データセットを用いて、非適応ベースラインに対する適応性の利点を実証的に示す。
関連論文リスト
- Direct Preference Optimization with Rating Information: Practical Algorithms and Provable Gains [67.71020482405343]
評価ギャップの形で追加情報を活用するアルゴリズムを設計する方法について検討する。
精度の高いレーティングギャップ情報が存在する場合,DPOよりも高速な統計的レートを実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-31T08:38:21Z) - Labels or Preferences? Budget-Constrained Learning with Human Judgments over AI-Generated Outputs [17.028710603629026]
我々は,AIにおいて,基幹ラベルとペアの選好の間で,固定されたアノテーション予算を最適に割り当てる方法について述べる。
本稿では,データ取得戦略を最適に学習する新しいロバストネス手法であるPreference-Calibrated Active Learning (PCAL)を紹介する。
この研究は、現代のAIにおける予算制約学習に対する原則的かつ統計的に効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-19T23:23:29Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Delegating Data Collection in Decentralized Machine Learning [67.0537668772372]
分散機械学習(ML)エコシステムの出現に動機付けられ,データ収集のデリゲートについて検討する。
我々は、2つの基本的な情報非対称性を扱う最適でほぼ最適な契約を設計する。
最適効用の1-1/e分を達成できるような単純な線形契約により、主成分がそのような非対称性に対処できることが示される。
論文 参考訳(メタデータ) (2023-09-04T22:16:35Z) - Delegated Classification [21.384062337682185]
機械学習タスクのインセンティブ対応デリゲーションに関する理論的枠組みを提案する。
予算最適契約を定義し、合理的な仮定の下で単純なしきい値を取ることを証明します。
実証的に、我々は予算最適契約を小規模データを用いて構築できることを実証した。
論文 参考訳(メタデータ) (2023-06-20T11:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。