論文の概要: Incentivizing Permissionless Distributed Learning of LLMs
- arxiv url: http://arxiv.org/abs/2505.21684v1
- Date: Tue, 27 May 2025 19:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.244625
- Title: Incentivizing Permissionless Distributed Learning of LLMs
- Title(参考訳): LLMの無許可分散学習のインセンティブ化
- Authors: Joel Lidin, Amir Sarfi, Evangelos Pappas, Samuel Dare, Eugene Belilovsky, Jacob Steeves,
- Abstract要約: textitGauntletは、更新の集約や擬似階調に依存する任意の同期分散トレーニングスキームに適用することができる。
我々は、OpenSkill評価システムを用いて、時間をかけて擬似漸進的なスコアの競合性を追跡する。
私たちのライブ1.2Bは、参加者の貢献の価値に基づいて、実際に価値の高いトークンを支払ったもので、インセンティブシステムの有用性を実証しています。
- 参考スコア(独自算出の注目度): 7.36110927499488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe an incentive system for distributed deep learning of foundational models where peers are rewarded for contributions. The incentive system, \textit{Gauntlet}, has been deployed on the bittensor blockchain and used to train a 1.2B LLM with completely permissionless contributions of pseudo-gradients: no control over the users that can register or their hardware. \textit{Gauntlet} can be applied to any synchronous distributed training scheme that relies on aggregating updates or pseudo-gradients. We rely on a two-stage mechanism for fast filtering of peer uptime, reliability, and synchronization, combined with the core component that estimates the loss before and after individual pseudo-gradient contributions. We utilized an OpenSkill rating system to track competitiveness of pseudo-gradient scores across time. Finally, we introduce a novel mechanism to ensure peers on the network perform unique computations. Our live 1.2B run, which has paid out real-valued tokens to participants based on the value of their contributions, yielded a competitive (on a per-iteration basis) 1.2B model that demonstrates the utility of our incentive system.
- Abstract(参考訳): 本稿では、友人が貢献に対して報酬を受ける基礎モデルの分散深層学習のためのインセンティブシステムについて述べる。
インセンティブシステムである‘textit{Gauntlet}は、bittensorブロックチェーン上にデプロイされ、擬似グラディエントの完全な許可のないコントリビューションで1.2B LLMをトレーニングするために使用されている。
\textit{Gauntlet}は、更新の集約や擬似階調に依存する任意の同期分散トレーニングスキームに適用できる。
我々は、ピアアップタイム、信頼性、同期を高速にフィルタリングするための2段階のメカニズムと、個別の擬似漸進的コントリビューションの前後における損失を推定するコアコンポーネントに依存している。
我々は、OpenSkillレーティングシステムを使用して、時間をかけて擬似漸進的なスコアの競争性を追跡した。
最後に,ネットワーク上のピアがユニークな計算を行うための新しいメカニズムを提案する。
コントリビューションの価値に基づいて、参加者に実際に価値の高いトークンを支払ったライブ1.2Bでは、インセンティブシステムの有用性を示す、競争力のある1.2Bモデルが得られました。
関連論文リスト
- Blockchain-based Framework for Scalable and Incentivized Federated Learning [0.820828081284034]
フェデレートラーニング(FL)は、生データを共有せずに協調的なモデルトレーニングを可能にし、分散データセットを活用しながらプライバシを保存する。
従来のFLシステムは、信頼の問題や単一障害点の導入、有意義なクライアントコントリビューションのインセンティブの制限といった、集中的な集約メカニズムに依存しています。
本稿では、スマートコントラクトと新しいハイブリッドインセンティブ機構を統合することにより、これらの制限に対処するブロックチェーンベースのFLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T00:38:35Z) - Proof-of-Collaborative-Learning: A Multi-winner Federated Learning Consensus Algorithm [2.5203968759841158]
協調学習(PoCL, Proof-of-Collaborative-Learning)は,多自由度学習による協調学習によるコンセンサス機構である。
PoCLはブロックチェーンのパワーをリダイレクトして、フェデレートされた学習モデルをトレーニングする。
鉱夫の局所訓練モデルの効率性を確保するための新しい評価機構を提案する。
論文 参考訳(メタデータ) (2024-07-17T21:14:05Z) - Unified Classification and Rejection: A One-versus-All Framework [47.58109235690227]
我々は,オープンな集合分類器を構築するための統一的なフレームワークを構築した。
K の $-class 問題を $ K $ 1-versus-all (OVA) のバイナリ分類タスクに分解することにより、OVA 分類器のスコアを組み合わせることで、$ (K+1) の $-class rear 確率が得られることを示す。
一般的なOSRおよびOOD検出データセットの実験により、提案するフレームワークは、単一のマルチクラス分類器を使用して、競合性能を得ることを示した。
論文 参考訳(メタデータ) (2023-11-22T12:47:12Z) - Fair yet Asymptotically Equal Collaborative Learning [32.588043205577435]
ストリーミングデータとのコラボレーティブな学習において、ノードは最新のストリーミングデータから計算された最新のモデル更新を共有することによって、機械学習(ML)モデルを共同で継続的に学習する。
本稿では,ノードに報酬が与えられるように公平性を保証するインセンティブ設計について検討する。
実世界のストリーミングデータを用いた実証実験により,提案手法は,等価性を維持する上で競争力を維持しつつ,既存のベースラインを公平性と学習性能で上回ることを示す。
論文 参考訳(メタデータ) (2023-06-09T08:57:14Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布推定が消失することを示し,推定分布が急速に平均に崩壊することを実証的に観察した。
我々は,$L$の学習効率に感化され,効率のよい学習方法として,返却分布の期待値と量子値を共同で学習することを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training
with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。
本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文 参考訳(メタデータ) (2021-06-28T10:48:20Z) - Reward-Based 1-bit Compressed Federated Distillation on Blockchain [14.365210947456209]
様々な形態のフェデレーション知識蒸留(FD)の出現は、新しい世代の堅牢でコミュニケーション効率の良いフェデレーション学習(FL)の道を開く。
本稿では,高度に圧縮された1ビットソフトラベルをスマートコントラクトに集約する分散化フェデレーション学習フレームワークを提案する。
労働者のコントリビューションが簡単に比較できる状況では、FDのPier Truth Serum for Crowdsourcing Mechanism(PTSC)を変更して、正直な参加に報いる。
論文 参考訳(メタデータ) (2021-06-27T15:51:04Z) - Training Generative Adversarial Networks in One Stage [58.983325666852856]
本稿では,1段階のみに効率よくGANを訓練できる汎用的なトレーニング手法を提案する。
提案手法は,データフリーな知識蒸留など,他の逆学習シナリオにも容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-02-28T09:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。