Fugu-MT 論文翻訳(概要): Fine-Tuning Games: Bargaining and Adaptation for General-Purpose Models

論文の概要: Fine-Tuning Games: Bargaining and Adaptation for General-Purpose Models

arxiv url: http://arxiv.org/abs/2308.04399v3
Date: Mon, 30 Dec 2024 20:10:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-03 22:24:07.636245
Title: Fine-Tuning Games: Bargaining and Adaptation for General-Purpose Models
Title（参考訳）: ファインチューニングゲーム:汎用モデルの獲得と適応
Authors: Benjamin Laufer, Jon Kleinberg, Hoda Heidari,
Abstract要約: 機械学習(ML)と人工知能(AI)の最近の進歩は、よく知られた構造に従っている。このモデルは、特定のドメイン固有の機能を実行するために、他のエンティティによって適応および微調整されるように設計されている。
参考スコア（独自算出の注目度）: 9.217996627263219
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in Machine Learning (ML) and Artificial Intelligence (AI) follow a familiar structure: A firm releases a large, pretrained model. It is designed to be adapted and tweaked by other entities to perform particular, domain-specific functions. The model is described as `general-purpose,' meaning it can be transferred to a wide range of downstream tasks, in a process known as adaptation or fine-tuning. Understanding this process - the strategies, incentives, and interactions involved in the development of AI tools - is crucial for making conclusions about societal implications and regulatory responses, and may provide insights beyond AI about general-purpose technologies. We propose a model of this adaptation process. A Generalist brings the technology to a certain level of performance, and one or more Domain specialist(s) adapt it for use in particular domain(s). Players incur costs when they invest in the technology, so they need to reach a bargaining agreement on how to share the resulting revenue before making their investment decisions. We find that for a broad class of cost and revenue functions, there exists a set of Pareto-optimal profit-sharing arrangements where the players jointly contribute to the technology. Our analysis, which utilizes methods based on bargaining solutions and sub-game perfect equilibria, provides insights into the strategic behaviors of firms in these types of interactions. For example, profit-sharing can arise even when one firm faces significantly higher costs than another. After demonstrating findings in the case of one domain-specialist, we provide closed-form and numerical bargaining solutions in the generalized setting with $n$ domain specialists. We find that any potential domain specialization will either contribute, free-ride, or abstain in their uptake of the technology, and provide conditions yielding these different responses.
Abstract（参考訳）: 機械学習(ML)と人工知能(AI)の最近の進歩は、よく知られた構造に従っている。特定のドメイン固有の機能を実行するために、他のエンティティによって適応および微調整されるように設計されている。このモデルは「汎用」と表現され、適応や微調整として知られるプロセスにおいて、幅広い下流タスクに転送することができる。このプロセス — AIツールの開発に関わる戦略、インセンティブ、インタラクション — を理解することは、社会的な意味や規制的な対応について結論を出す上で不可欠であり、汎用技術に関するAI以外の洞察を提供する可能性がある。この適応プロセスのモデルを提案する。ジェネラリストは、この技術を特定のレベルのパフォーマンスに持ち込み、1つ以上のドメインスペシャリストが特定のドメインでの使用に適応します。プレイヤーは技術に投資する際にコストを発生させるので、投資決定を行う前に、収益の共有方法に関する交渉の合意に達する必要がある。我々は、幅広いコストと収益関数に対して、プレイヤーが共同で技術に貢献するパレート最適利益分配アレンジメントが存在することを発見した。我々の分析は,バーゲインソリューションとサブゲーム完全均衡に基づく手法を用いて,このようなタイプのインタラクションにおける企業の戦略的行動に関する洞察を提供する。例えば、ある企業が他の企業よりもはるかに高いコストに直面した場合でも、利益共有が発生する可能性がある。ドメインスペシャリストの1名に対して,n$ドメインスペシャリストによる一般設定において,クローズドフォームおよび数値バルゲインソリューションを提示した。潜在的なドメインの専門化は、テクノロジの取り込みに寄与するか、自由化するか、あるいは停止するかのいずれかであり、これらの異なる応答をもたらす条件を提供する。

関連論文リスト

ORPR: An OR-Guided Pretrain-then-Reinforce Learning Model for Inventory Management [9.138155308817215]
プレトレイン-Then-Reinforce」アプローチは、AIの適応的認識をオペレーションリサーチの構造的厳密さと調和させる。構造化OR論理で導かれる場合、軽量でドメインインフォームドモデルにより最先端の性能とロバストな転送性が得られることを示す。
論文参考訳（メタデータ） (2025-12-22T03:39:43Z)
The Architecture of AI Transformation: Four Strategic Patterns and an Emerging Frontier [0.0]
95%の企業が、AIデプロイメントによる測定可能な利益の影響を報告していない。本稿では,AI戦略を2つの独立した次元に沿って再認識する2x2フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-02T21:57:58Z)
Explainable Artificial Intelligence for identifying profitability predictors in Financial Statements [0.7067443325368975]
2013年から2022年までのイタリアの上場企業のデータからなるデータベースであるAIDAから得られた生の財務諸表データに機械学習技術を適用した。我々は、異なるモデルの比較研究を行い、欧州のAI規制に従って、提案モデルに説明可能性技術を適用して分析を補完する。
論文参考訳（メタデータ） (2025-01-29T14:33:23Z)
Adaptive$^2$: Adaptive Domain Mining for Fine-grained Domain Adaptation Modeling [50.85199749890184]
本稿では,ドメインマイニングモジュールを用いてドメインを適応的に学習する新しいフレームワークであるAdaptive$2$を提案する。その結果、手作りドメインを用いた従来のドメイン適応手法は、公正なFLOPS条件下では単一ドメインモデルより優れていることがわかった。 Adaptive$2$は、オンライン広告におけるドメイン識別と適応の両方を自動的に学習する最初のアプローチである。
論文参考訳（メタデータ） (2024-12-11T08:41:41Z)
Pricing and Competition for Generative AI [3.8677478583601776]
われわれは、新しい生成AIソフトウェアの開発者がどのようにして技術をリリースし、価格を下げるかという課題を探求する。まず、ユーザコスト効率に関して、特定のタスクに対する2つの異なるモデルの比較を行う。次に、生成AIソフトウェアの価格問題を、2つの異なる企業間のゲームとしてモデル化する。
論文参考訳（メタデータ） (2024-11-04T22:52:45Z)
Collaborative AI in Sentiment Analysis: System Architecture, Data Prediction and Deployment Strategies [3.3374611485861116]
大規模言語モデル(LLM)に基づく人工知能技術は、特に感情分析においてゲームチェンジャーとなっている。しかし、複雑なマルチモーダルデータを処理するための多様なAIモデルの統合と、それに伴う機能抽出の高コストは、大きな課題を呈している。本研究では,様々なAIシステムにまたがるタスクを効率的に分散・解決するための協調型AIフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-17T06:14:34Z)
Enhancing Q&A with Domain-Specific Fine-Tuning and Iterative Reasoning: A Comparative Study [0.3932300766934226]
本稿では,大規模言語モデル(LLM)と検索拡張生成(RAG)を用いた質問応答システム(Q&A)の性能に及ぼすドメイン固有モデル微調整と推論機構の影響について検討する。 FinanceBench SECのファイナンシャルファイリングデータセットを用いて、RAGでは、微調整の埋め込みモデルと微調整のLDMを組み合わせることで、ジェネリックモデルよりも精度が高いことを観察する。本稿では,Q&AAIの主要な技術コンポーネントを抽出する構造化された技術設計空間を提案する。
論文参考訳（メタデータ） (2024-04-17T23:00:03Z)
LMaaS: Exploring Pricing Strategy of Large Model as a Service for Communication [11.337245234301857]
有料サービスモードは、LM(Large Model as a Service)と呼ばれるこの文脈に適していると我々は主張する。本稿では,顧客の将来的なレンタル決定を推論することで,大規模モデルの価格を反復的に最適化する反復モデル価格(IMP)アルゴリズムを提案する。第2ステップでは、ロバストな選択とレンタルのアルゴリズムを設計することで、顧客の選択決定を最適化する。
論文参考訳（メタデータ） (2024-01-05T07:19:19Z)
Refined Mechanism Design for Approximately Structured Priors via Active Regression [50.71772232237571]
我々は、大量の商品を戦略的入札者に販売する収益を最大化する販売業者の問題を考える。この設定の最適かつほぼ最適のメカニズムは、特徴付けや計算が難しいことで有名である。
論文参考訳（メタデータ） (2023-10-11T20:34:17Z)
General Purpose Artificial Intelligence Systems (GPAIS): Properties, Definition, Taxonomy, Societal Implications and Responsible Governance [16.030931070783637]
汎用人工知能システム(GPAIS)は、これらのAIシステムを指すものとして定義されている。これまで、人工知能の可能性は、まるで人間であるかのように知的タスクを実行するのに十分強力であり、あるいはそれを改善することさえ可能であり、いまだに願望、フィクションであり、我々の社会にとっての危険であると考えられてきた。本研究は,GPAISの既存の定義について論じ,その特性や限界に応じて,GPAISの種類間で段階的な分化を可能にする新しい定義を提案する。
論文参考訳（メタデータ） (2023-07-26T16:35:48Z)
Incentive Mechanism Design for Unbiased Federated Learning with Randomized Client Participation [31.2017942327673]
本稿では,ランダムなクライアント参加を伴うフェデレーション学習(FL)のためのゲーム理論インセンティブ機構を提案する。我々は,サーバのモデル性能向上とクライアントの利益向上を両立させることを実証した。
論文参考訳（メタデータ） (2023-04-17T04:05:57Z)
MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文参考訳（メタデータ） (2023-04-10T15:44:50Z)
AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities and Challenges [60.56413461109281]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文参考訳（メタデータ） (2023-04-10T15:38:12Z)
Towards Multi-Agent Reinforcement Learning driven Over-The-Counter Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文参考訳（メタデータ） (2022-10-13T17:06:08Z)
Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-06-14T06:28:04Z)
Finding General Equilibria in Many-Agent Economic Simulations Using Deep Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文参考訳（メタデータ） (2022-01-03T17:00:17Z)
Collective eXplainable AI: Explaining Cooperative Strategies and Agent Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2021-10-04T10:28:57Z)
Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文参考訳（メタデータ） (2021-02-23T08:07:22Z)
Portfolio Optimization with 2D Relative-Attentional Gated Transformer [9.541129630971689]
DPGRGT(Relative-attentional Gated Transformer)モデルを用いた新しい決定論的政策グラデーションを提案する。学習可能な相対的な位置埋め込みを時間と資産の軸に適用することにより、モデルは財務データの特異な構造をよりよく理解する。 20年間の米国株式市場データを用いた実験では,モデルがベースラインモデルを上回り,その効果を実証した。
論文参考訳（メタデータ） (2020-12-27T14:08:26Z)
Decentralized Reinforcement Learning: Global Decision-Making via Local Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。我々は分散強化学習アルゴリズムのクラスを導出する。我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文参考訳（メタデータ） (2020-07-05T16:41:09Z)
VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文参考訳（メタデータ） (2020-04-19T18:00:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。