Fugu-MT 論文翻訳(概要): Rethinking Scaling Laws for Learning in Strategic Environments

論文の概要: Rethinking Scaling Laws for Learning in Strategic Environments

arxiv url: http://arxiv.org/abs/2402.07588v2
Date: Wed, 21 Feb 2024 18:49:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 18:47:17.658547
Title: Rethinking Scaling Laws for Learning in Strategic Environments
Title（参考訳）: 戦略的環境における学習のためのスケーリング法則の再考
Authors: Tinashe Handina and Eric Mazumdar
Abstract要約: より大規模なマシンモデルをデプロイすることは、モデルがより表現力が高くなればなるほど、アクセス可能なデータが増えていくことを反映している。モデルがさまざまな現実のシナリオにデプロイされるにつれて、モデルの相互作用が戦略的環境に与える影響を考察する。
参考スコア（独自算出の注目度）: 6.332697416637105
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The deployment of ever-larger machine learning models reflects a growing consensus that the more expressive the model$\unicode{x2013}$and the more data one has access to$\unicode{x2013}$the more one can improve performance. As models get deployed in a variety of real world scenarios, they inevitably face strategic environments. In this work, we consider the natural question of how the interplay of models and strategic interactions affects scaling laws. We find that strategic interactions can break the conventional view of scaling laws$\unicode{x2013}$meaning that performance does not necessarily monotonically improve as models get larger and/ or more expressive (even with infinite data). We show the implications of this phenomenon in several contexts including strategic regression, strategic classification, and multi-agent reinforcement learning through examples of strategic environments in which$\unicode{x2013}$by simply restricting the expressivity of one's model or policy class$\unicode{x2013}$one can achieve strictly better equilibrium outcomes. Motivated by these examples, we then propose a new paradigm for model-selection in games wherein an agent seeks to choose amongst different model classes to use as their action set in a game.
Abstract（参考訳）: より大規模な機械学習モデルのデプロイは、モデルがより表現力のある$\unicode{x2013}$と、より多くのデータが$\unicode{x2013}$にアクセスできるほどパフォーマンスが向上する、というコンセンサスを反映している。モデルがさまざまな現実世界のシナリオにデプロイされると、必然的に戦略的環境に直面します。本研究では,モデルと戦略的相互作用の相互作用がスケーリング法則にどのように影響するかという自然問題を考える。戦略的相互作用が従来のスケーリング法則の見解を破る可能性があることが分かりました。$\unicode{x2013}$ つまり、モデルが大きくなり、(無限のデータであっても)表現的になるにつれて、パフォーマンスが必ずしも単調に改善されるとは限らないということです。この現象は,戦略回帰,戦略分類,マルチエージェント強化学習といったいくつかの文脈において,単に自己のモデルや政策クラスの表現性を制限することによって,厳密な平衡結果が得られるという戦略環境の例を通して,その意味を示す。これらの例に動機づけられ、エージェントがゲーム内のアクションセットとして使用する異なるモデルクラスの中から選択しようとするゲームにおけるモデル選択の新しいパラダイムを提案する。

関連論文リスト

Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning [16.04558746520946]
強化学習(Reinforcement Learning, RL)は、エージェントと環境との相互作用を通じて得られる累積報酬の最大化に焦点を当てている。我々は、複数の事前学習モデルの埋め込みを組み合わせ、リッチな状態表現を形成する新しいアーキテクチャである、Weight Sharing Attention (WSA)を提案する。
論文参考訳（メタデータ） (2025-07-09T18:13:52Z)
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching [41.96482857947199]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。 LLMは通常、相当なモデルサイズを持ち、デプロイメントと推論において大きな課題をもたらします。そこで我々は, モデルモデルから層を戦略的に組み合わせたり, マージしたりすることで, モデルを圧縮するための新しい戦略を開発した。
論文参考訳（メタデータ） (2025-06-25T14:24:59Z)
Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models [37.774994737939394]
我々は動的モデルを用いて、合成データと推論時間検証を用いて世界モデルをブートストラップする。 GPT4o-as-judgeによると、我々の最良のモデルは、最先端の画像編集モデルと性能を競い合っており、実世界のサブセットでは15%のマージンで改善されている。
論文参考訳（メタデータ） (2025-06-06T11:50:18Z)
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions [65.89403417819764]
設計選択が言語モデル能力に与える影響を定量化する。モデルサイズとトレーニングトークンの数以外の機能を組み込むことで、下流のパフォーマンスを予測する能力が3～28%向上する。
論文参考訳（メタデータ） (2025-03-05T19:46:04Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。本研究は,大規模モデルマージの有用性を体系的に評価する。
論文参考訳（メタデータ） (2024-10-04T17:17:19Z)
Large Model Strategic Thinking, Small Model Efficiency: Transferring Theory of Mind in Large Language Models [0.0]
微調整による小型かつ高性能な特殊アルゴリズムの実現可能性について検討する。まず,異なる社会的文脈と異なる社会的ジレンマのゲームを組み合わせて,その回答を記録し,Q&Aの微調整に使用する,20種類のシナリオを持つ大規模事前学習モデルを提案する。微調整されたより小さな言語モデルは、より小さな事前訓練されたモデルとより大きな相対性の間の性能のギャップを一貫して橋渡しすることを発見した。
論文参考訳（メタデータ） (2024-08-05T20:49:48Z)
ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文参考訳（メタデータ） (2023-12-14T15:53:07Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。 SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。 SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-06-16T16:46:32Z)
CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing [83.63107444454938]
本稿では,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。大規模言語モデルを用いた実験により,CAMEROはアンサンブルモデルの一般化性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2022-04-13T19:54:51Z)
Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。我々はSomething-v2ベンチマークで最先端の結果を得た。
論文参考訳（メタデータ） (2020-11-04T21:20:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。