論文の概要: Incentivizing Quality Text Generation via Statistical Contracts
- arxiv url: http://arxiv.org/abs/2406.11118v1
- Date: Mon, 17 Jun 2024 00:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:53:41.100601
- Title: Incentivizing Quality Text Generation via Statistical Contracts
- Title(参考訳): 統計的契約による品質テキスト生成のインセンティブ
- Authors: Eden Saig, Ohad Einav, Inbal Talgam-Cohen,
- Abstract要約: 品質をインセンティブ化するための,パフォーマンス向上のための契約ベースのフレームワークを提案する。
エージェントがコストのかかる推論を用いてテキストを生成するプリンシパルエージェントゲームについて検討する。
コストロスの契約は、コストを意識した契約に比べて、客観的価値の限界的な増加を犠牲にしています。
- 参考スコア(独自算出の注目度): 7.303977308530667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the success of large language models (LLMs) increases demand for machine-generated text, current pay-per-token pricing schemes create a misalignment of incentives known in economics as moral hazard: Text-generating agents have strong incentive to cut costs by preferring a cheaper model over the cutting-edge one, and this can be done "behind the scenes" since the agent performs inference internally. In this work, we approach this issue from an economic perspective, by proposing a pay-for-performance, contract-based framework for incentivizing quality. We study a principal-agent game where the agent generates text using costly inference, and the contract determines the principal's payment for the text according to an automated quality evaluation. Since standard contract theory is inapplicable when internal inference costs are unknown, we introduce cost-robust contracts. As our main theoretical contribution, we characterize optimal cost-robust contracts through a direct correspondence to optimal composite hypothesis tests from statistics, generalizing a result of Saig et al. (NeurIPS'23). We evaluate our framework empirically by deriving contracts for a range of objectives and LLM evaluation benchmarks, and find that cost-robust contracts sacrifice only a marginal increase in objective value compared to their cost-aware counterparts.
- Abstract(参考訳): 大規模言語モデル(LLMs)の成功は、機械生成テキストの需要を増加させる一方で、現在のペイ・パー・トーケンの価格体系は、経済においてモラルハザード(モラルハザード)として知られるインセンティブの誤調整を生み出している。
本研究は、品質をインセンティブ化するための、パフォーマンスの高い契約ベースのフレームワークを提案することで、経済的な観点からこの問題にアプローチする。
エージェントがコストのかかる推論を用いてテキストを生成するプリンシパルエージェントゲームについて検討し、自動品質評価に基づいて、契約がテキストに対するプリンシパルの支払いを決定する。
内部推論コストが不明な場合,標準契約理論は適用できないため,コストロバスト契約を導入する。
筆者らの主な理論的貢献として、統計学からの最適合成仮説テストと直接対応して最適コストロス契約を特徴づけ、Saig et al (NeurIPS'23) の結果を一般化する。
我々は,様々な目標とLCM評価ベンチマークの契約を導出して,実証的にフレームワークを評価し,コストロスの契約は,コスト意識の契約よりも目標値の限界的な増加を犠牲にしていることがわかった。
関連論文リスト
- Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - New Perspectives in Online Contract Design [2.296475290901356]
本研究は, オンライン学習の観点から, 繰り返し主エージェント問題について考察する。
プリンシパルの目標は、反復的な相互作用を通じて彼女の効用を最大化する最適な契約を学ぶことである。
論文 参考訳(メタデータ) (2024-03-11T20:28:23Z) - $\texttt{COSMIC}$: Mutual Information for Task-Agnostic Summarization Evaluation [39.287235598507294]
本稿では,タスク成果を保存しつつ,下流タスクに有用な要約を生成するために,その能力に基づいて要約者を評価する新しいタスク指向評価手法を提案する。
我々は,この指標の実践的実装として$textttCOSMIC$を導入し,人間の判断に基づく指標との強い相関と下流タスク性能の予測の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-29T18:51:23Z) - Incentivized Truthful Communication for Federated Bandits [61.759855777522255]
我々はTrath-FedBanという名前のインセンティブ互換通信プロトコルを提案する。
Truth-FedBanは、オーバーヘッドなしにサブ線形後悔と通信コストを保証します。
論文 参考訳(メタデータ) (2024-02-07T00:23:20Z) - Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues [47.977032883078664]
我々はLarge Language Models(LLM)に基づく支援エージェントを開発する。
2つのLLMエージェントをロールプレイに参加させることで、ビジネス交渉をシミュレートする。
第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換える仲介役として機能する。
論文 参考訳(メタデータ) (2024-01-29T09:07:40Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - Delegated Classification [21.384062337682185]
機械学習タスクのインセンティブ対応デリゲーションに関する理論的枠組みを提案する。
予算最適契約を定義し、合理的な仮定の下で単純なしきい値を取ることを証明します。
実証的に、我々は予算最適契約を小規模データを用いて構築できることを実証した。
論文 参考訳(メタデータ) (2023-06-20T11:59:03Z) - ContractNLI: A Dataset for Document-level Natural Language Inference for
Contracts [39.75232199445175]
契約書に対する文書レベルの自然言語推論(NLI)を提案する。
システムには一連の仮説と契約が与えられ、それぞれの仮説が「関連づけられている」か、「矛盾している」か、「言及されていない」か(中立である)を分類するよう求められる。
これまでで最大のコーパスを607のアノテート契約でリリースしています。
論文 参考訳(メタデータ) (2021-10-05T03:22:31Z) - Measuring Association Between Labels and Free-Text Rationales [60.58672852655487]
解釈可能なNLPでは、説明された例に対するモデルの意思決定プロセスを反映した忠実な理性が必要です。
情報抽出型タスクに対する忠実な抽出合理化のための既存のモデルであるパイプラインは、自由テキスト合理化を必要とするタスクに確実に拡張されないことを示す。
我々は、信頼が確立されていない自由文合理化のための、広く使われている高性能モデルのクラスである、共同予測と合理化のモデルに目を向ける。
論文 参考訳(メタデータ) (2020-10-24T03:40:56Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。