論文の概要: Fine-Tuning Games: Bargaining and Adaptation for General-Purpose Models
- arxiv url: http://arxiv.org/abs/2308.04399v3
- Date: Mon, 30 Dec 2024 20:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 14:33:23.640379
- Title: Fine-Tuning Games: Bargaining and Adaptation for General-Purpose Models
- Title(参考訳): ファインチューニングゲーム:汎用モデルの獲得と適応
- Authors: Benjamin Laufer, Jon Kleinberg, Hoda Heidari,
- Abstract要約: 機械学習(ML)と人工知能(AI)の最近の進歩は、よく知られた構造に従っている。
このモデルは、特定のドメイン固有の機能を実行するために、他のエンティティによって適応および微調整されるように設計されている。
- 参考スコア(独自算出の注目度): 9.217996627263219
- License:
- Abstract: Recent advances in Machine Learning (ML) and Artificial Intelligence (AI) follow a familiar structure: A firm releases a large, pretrained model. It is designed to be adapted and tweaked by other entities to perform particular, domain-specific functions. The model is described as `general-purpose,' meaning it can be transferred to a wide range of downstream tasks, in a process known as adaptation or fine-tuning. Understanding this process - the strategies, incentives, and interactions involved in the development of AI tools - is crucial for making conclusions about societal implications and regulatory responses, and may provide insights beyond AI about general-purpose technologies. We propose a model of this adaptation process. A Generalist brings the technology to a certain level of performance, and one or more Domain specialist(s) adapt it for use in particular domain(s). Players incur costs when they invest in the technology, so they need to reach a bargaining agreement on how to share the resulting revenue before making their investment decisions. We find that for a broad class of cost and revenue functions, there exists a set of Pareto-optimal profit-sharing arrangements where the players jointly contribute to the technology. Our analysis, which utilizes methods based on bargaining solutions and sub-game perfect equilibria, provides insights into the strategic behaviors of firms in these types of interactions. For example, profit-sharing can arise even when one firm faces significantly higher costs than another. After demonstrating findings in the case of one domain-specialist, we provide closed-form and numerical bargaining solutions in the generalized setting with $n$ domain specialists. We find that any potential domain specialization will either contribute, free-ride, or abstain in their uptake of the technology, and provide conditions yielding these different responses.
- Abstract(参考訳): 機械学習(ML)と人工知能(AI)の最近の進歩は、よく知られた構造に従っている。
特定のドメイン固有の機能を実行するために、他のエンティティによって適応および微調整されるように設計されている。
このモデルは「汎用」と表現され、適応や微調整として知られるプロセスにおいて、幅広い下流タスクに転送することができる。
このプロセス — AIツールの開発に関わる戦略、インセンティブ、インタラクション — を理解することは、社会的な意味や規制的な対応について結論を出す上で不可欠であり、汎用技術に関するAI以外の洞察を提供する可能性がある。
この適応プロセスのモデルを提案する。
ジェネラリストは、この技術を特定のレベルのパフォーマンスに持ち込み、1つ以上のドメインスペシャリストが特定のドメインでの使用に適応します。
プレイヤーは技術に投資する際にコストを発生させるので、投資決定を行う前に、収益の共有方法に関する交渉の合意に達する必要がある。
我々は、幅広いコストと収益関数に対して、プレイヤーが共同で技術に貢献するパレート最適利益分配アレンジメントが存在することを発見した。
我々の分析は,バーゲインソリューションとサブゲーム完全均衡に基づく手法を用いて,このようなタイプのインタラクションにおける企業の戦略的行動に関する洞察を提供する。
例えば、ある企業が他の企業よりもはるかに高いコストに直面した場合でも、利益共有が発生する可能性がある。
ドメインスペシャリストの1名に対して,n$ドメインスペシャリストによる一般設定において,クローズドフォームおよび数値バルゲインソリューションを提示した。
潜在的なドメインの専門化は、テクノロジの取り込みに寄与するか、自由化するか、あるいは停止するかのいずれかであり、これらの異なる応答をもたらす条件を提供する。
関連論文リスト
- Pricing and Competition for Generative AI [3.8677478583601776]
われわれは、新しい生成AIソフトウェアの開発者がどのようにして技術をリリースし、価格を下げるかという課題を探求する。
まず、ユーザコスト効率に関して、特定のタスクに対する2つの異なるモデルの比較を行う。
次に、生成AIソフトウェアの価格問題を、2つの異なる企業間のゲームとしてモデル化する。
論文 参考訳(メタデータ) (2024-11-04T22:52:45Z) - LMaaS: Exploring Pricing Strategy of Large Model as a Service for
Communication [11.337245234301857]
有料サービスモードは、LM(Large Model as a Service)と呼ばれるこの文脈に適していると我々は主張する。
本稿では,顧客の将来的なレンタル決定を推論することで,大規模モデルの価格を反復的に最適化する反復モデル価格(IMP)アルゴリズムを提案する。
第2ステップでは、ロバストな選択とレンタルのアルゴリズムを設計することで、顧客の選択決定を最適化する。
論文 参考訳(メタデータ) (2024-01-05T07:19:19Z) - Refined Mechanism Design for Approximately Structured Priors via Active
Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。
この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文 参考訳(メタデータ) (2023-10-11T20:34:17Z) - Incentive Mechanism Design for Unbiased Federated Learning with
Randomized Client Participation [31.2017942327673]
本稿では,ランダムなクライアント参加を伴うフェデレーション学習(FL)のためのゲーム理論インセンティブ機構を提案する。
我々は,サーバのモデル性能向上とクライアントの利益向上を両立させることを実証した。
論文 参考訳(メタデータ) (2023-04-17T04:05:57Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - Portfolio Optimization with 2D Relative-Attentional Gated Transformer [9.541129630971689]
DPGRGT(Relative-attentional Gated Transformer)モデルを用いた新しい決定論的政策グラデーションを提案する。
学習可能な相対的な位置埋め込みを時間と資産の軸に適用することにより、モデルは財務データの特異な構造をよりよく理解する。
20年間の米国株式市場データを用いた実験では,モデルがベースラインモデルを上回り,その効果を実証した。
論文 参考訳(メタデータ) (2020-12-27T14:08:26Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。