論文の概要: Fine-Tuning Games: Bargaining and Adaptation for General-Purpose Models
- arxiv url: http://arxiv.org/abs/2308.04399v2
- Date: Fri, 11 Aug 2023 20:39:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 18:33:36.192792
- Title: Fine-Tuning Games: Bargaining and Adaptation for General-Purpose Models
- Title(参考訳): ファインチューニングゲーム:汎用モデルの獲得と適応
- Authors: Benjamin Laufer and Jon Kleinberg and Hoda Heidari
- Abstract要約: 機械学習(ML)と人工知能(AI)の主な進歩は、汎用モデルの開発とリリースの形式をますます取り入れている。
本稿では、ジェネリストが特定のレベルのパフォーマンスに技術製品を持ち込み、1つ以上のドメインスペシャリストが特定のドメインでの使用に適応する、微調整プロセスのモデルを提供する。
どちらの企業も、テクノロジーに投資するときは利益を追求し、コストを発生させる。
- 参考スコア(独自算出の注目度): 10.36010442870647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Major advances in Machine Learning (ML) and Artificial Intelligence (AI)
increasingly take the form of developing and releasing general-purpose models.
These models are designed to be adapted by other businesses and agencies to
perform a particular, domain-specific function. This process has become known
as adaptation or fine-tuning. This paper offers a model of the fine-tuning
process where a Generalist brings the technological product (here an ML model)
to a certain level of performance, and one or more Domain-specialist(s) adapts
it for use in a particular domain. Both entities are profit-seeking and incur
costs when they invest in the technology, and they must reach a bargaining
agreement on how to share the revenue for the technology to reach the market.
For a relatively general class of cost and revenue functions, we characterize
the conditions under which the fine-tuning game yields a profit-sharing
solution. We observe that any potential domain-specialization will either
contribute, free-ride, or abstain in their uptake of the technology, and we
provide conditions yielding these different strategies. We show how methods
based on bargaining solutions and sub-game perfect equilibria provide insights
into the strategic behavior of firms in these types of interactions, and we
find that profit-sharing can still arise even when one firm has significantly
higher costs than another. We also provide methods for identifying
Pareto-optimal bargaining arrangements for a general set of utility functions.
- Abstract(参考訳): 機械学習(ML)と人工知能(AI)の主な進歩は、汎用モデルの開発とリリースの形式をますます取り入れている。
これらのモデルは、他の企業や代理店が特定のドメイン固有の機能を実行するように設計されている。
このプロセスは適応や微調整として知られるようになった。
本稿では、ジェネラリストが技術製品(以下、MLモデル)を一定のレベルのパフォーマンスで導入し、1つ以上のドメイン-スペシャリストが特定のドメインでの使用に適応する微調整プロセスのモデルを提案する。
両社とも、テクノロジに投資するときに利益を計上し、コストを被る。そして、市場に到達するためのテクノロジの収益の共有方法に関する交渉合意に達する必要がある。
比較的一般的なコストと収益関数に対して、細調整ゲームが利益分配ソリューションをもたらす条件を特徴付ける。
我々は、潜在的なドメイン-特殊化が、テクノロジーの取り込みに寄与し、自由化され、または吸収されることを観察し、これらの異なる戦略をもたらす条件を提供する。
我々は,このタイプのインタラクションにおける企業の戦略行動の洞察を,バーゲインソリューションとサブゲーム完全均衡に基づく手法がどのように提供するかを示し,一方の企業が他方よりも著しくコストが高い場合でも,利益の分配が生じることを見出した。
また,実用関数の一般集合に対するパレート・最適交渉配置を同定する手法も提案する。
関連論文リスト
- Pricing and Competition for Generative AI [3.8677478583601776]
われわれは、新しい生成AIソフトウェアの開発者がどのようにして技術をリリースし、価格を下げるかという課題を探求する。
まず、ユーザコスト効率に関して、特定のタスクに対する2つの異なるモデルの比較を行う。
次に、生成AIソフトウェアの価格問題を、2つの異なる企業間のゲームとしてモデル化する。
論文 参考訳(メタデータ) (2024-11-04T22:52:45Z) - LMaaS: Exploring Pricing Strategy of Large Model as a Service for
Communication [11.337245234301857]
有料サービスモードは、LM(Large Model as a Service)と呼ばれるこの文脈に適していると我々は主張する。
本稿では,顧客の将来的なレンタル決定を推論することで,大規模モデルの価格を反復的に最適化する反復モデル価格(IMP)アルゴリズムを提案する。
第2ステップでは、ロバストな選択とレンタルのアルゴリズムを設計することで、顧客の選択決定を最適化する。
論文 参考訳(メタデータ) (2024-01-05T07:19:19Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - Incentive Mechanism Design for Unbiased Federated Learning with
Randomized Client Participation [31.2017942327673]
本稿では,ランダムなクライアント参加を伴うフェデレーション学習(FL)のためのゲーム理論インセンティブ機構を提案する。
我々は,サーバのモデル性能向上とクライアントの利益向上を両立させることを実証した。
論文 参考訳(メタデータ) (2023-04-17T04:05:57Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - Portfolio Optimization with 2D Relative-Attentional Gated Transformer [9.541129630971689]
DPGRGT(Relative-attentional Gated Transformer)モデルを用いた新しい決定論的政策グラデーションを提案する。
学習可能な相対的な位置埋め込みを時間と資産の軸に適用することにより、モデルは財務データの特異な構造をよりよく理解する。
20年間の米国株式市場データを用いた実験では,モデルがベースラインモデルを上回り,その効果を実証した。
論文 参考訳(メタデータ) (2020-12-27T14:08:26Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。