Fugu-MT 論文翻訳(概要): Impacts of Aggregation on Model Diversity and Consumer Utility

論文の概要: Impacts of Aggregation on Model Diversity and Consumer Utility

arxiv url: http://arxiv.org/abs/2602.23293v1
Date: Thu, 26 Feb 2026 18:04:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.829054
Title: Impacts of Aggregation on Model Diversity and Consumer Utility
Title（参考訳）: 集約がモデル多様性と消費者の実用性に及ぼす影響
Authors: Kate Donahue, Manish Raghavan,
Abstract要約: 市場参入とモデル置換の2種類のモデル変更について検討する。我々は、Winrateがモデル作成者に対して、両方のモデル変更に対して均質化を動機付けることができることを示す。より高品質な回答に対してモデルに報酬を与える,新たなメカニズムである重み付きウインレートを提案する。
参考スコア（独自算出の注目度）: 8.367827809551459
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Consider a marketplace of AI tools, each with slightly different strengths and weaknesses. By selecting the right model for the task at hand, a user can do better than simply committing to a single model for everything. Routers operate under a similar principle, where sophisticated model selection can increase overall performance. However, aggregation is often noisy, reflecting in imperfect user choices or routing decisions. This leads to two main questions: first, what does a "healthy marketplace" of models look like for maximizing consumer utility? Secondly, how can we incentivize producers to create such models? Here, we study two types of model changes: market entry (where an entirely new model is created and added to the set of available models), and model replacement (where an existing model has its strengths and weaknesses changed). We show that winrate, a standard benchmark in LLM evaluation, can incentivize model creators to homogenize for both types of model changes, reducing consumer welfare. We propose a new mechanism, weighted winrate, which rewards models for answers that are higher quality, and show that it provably improves incentives for producers to specialize and increases consumer welfare. We conclude by demonstrating that our theoretical results generalize to empirical benchmark datasets and discussing implications for evaluation design.
Abstract（参考訳）: AIツールのマーケットプレースを考えてみましょう。手動でタスクの適切なモデルを選択することで、ユーザは、すべてのために単一のモデルにコミットするよりは、よいことができます。ルータも同様の原理で動作し、洗練されたモデル選択により全体的な性能が向上する。しかし、アグリゲーションはしばしば騒々しく、不完全なユーザー選択やルーティングの決定を反映している。まず、モデルの“健全なマーケットプレース”は、コンシューマユーティリティを最大化する上で、どのようなものなのでしょう? 第二に、どうやってプロデューサにそのようなモデルを作るインセンティブを与えるのか? ここでは、市場参入(全く新しいモデルが作成され、利用可能なモデルのセットに追加される)とモデル置換(既存のモデルが強みと弱みを変化させる)の2つのタイプについて検討する。 LLM評価の標準ベンチマークであるWinrateは、モデル作成者が両方のモデル変更を均質化することで、消費者の福祉を低減できることを示す。そこで我々は,より高い品質の回答に対してモデルに報奨を与える「重み付きウインレート」という新たなメカニズムを提案し,生産者が消費者福祉を専門化・向上するためのインセンティブを確実に改善することを示す。我々は,実験的なベンチマークデータセットに理論結果が一般化されることを実証し,評価設計の意義について論じる。

関連論文リスト

Smaller Models, Smarter Rewards: A Two-Sided Approach to Process and Outcome Rewards [40.23960862004138]
本稿では,最先端の小型言語モデルが有用報酬モデルに変換できるかどうかを考察する。我々はAPPS符号化チャレンジベンチマークから得られた正当性ラベル付きコードサンプルのデータセットを構築した。この批判を用いて、複数世代にわたる最も正確なコードの検索能力を20%以上改善する。
論文参考訳（メタデータ） (2025-10-27T07:36:41Z)
Markets for Models [0.0]
我々は、企業が予測を改善するためにモデルを消費者に販売する市場を調査する。競争相手の参入を抑えるために、非効率に偏ったモデルや非効率にコストがかかるモデルを選択できることを示します。
論文参考訳（メタデータ） (2025-03-04T19:07:02Z)
Exploring Model Kinship for Merging Large Language Models [73.98345036483299]
我々は, モデル進化を反復的融合を通じて研究し, 生物進化の類似性について考察した。モデル親和性はマージによって達成された性能改善と密接に関連していることを示す。本稿では,新しいモデル統合戦略を提案する。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
UniMatch: A Unified User-Item Matching Framework for the Multi-purpose Merchant Marketing [27.459774494479227]
1つのモデルでアイテムレコメンデーションとユーザターゲティングを同時に行うために,統合されたユーザイテムマッチングフレームワークを提案する。我々のフレームワークは、最先端の手法と比較して大幅に性能が向上し、計算資源や日々のメンテナンスにかかるコストが大幅に削減された。
論文参考訳（メタデータ） (2023-07-19T13:49:35Z)
Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文参考訳（メタデータ） (2023-06-26T13:06:34Z)
Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文参考訳（メタデータ） (2021-03-26T11:32:27Z)
Trust the Model When It Is Confident: Masked Model-based Actor-Critic [11.675078067322897]
Masked Model-based Actor-Critic (M2AC)は、新しいポリシー最適化アルゴリズムである。 M2ACはモデルの不確実性に基づいてマスキング機構を実装し、その予測が使用されるかどうかを決定する。
論文参考訳（メタデータ） (2020-10-10T03:39:56Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。