論文の概要: \mathsf{VISTA}: Decentralized Machine Learning in Adversary Dominated Environments
- arxiv url: http://arxiv.org/abs/2605.07841v1
- Date: Fri, 08 May 2026 15:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.144538
- Title: \mathsf{VISTA}: Decentralized Machine Learning in Adversary Dominated Environments
- Title(参考訳): \mathsf{VISTA}: 逆支配環境における分散機械学習
- Authors: Hanzaleh Akbari Nodehi, Parsa Moradi, Soheil Mohajer, Mohammad Ali Maddah-Ali,
- Abstract要約: 分散機械学習は、評価などのアウトソーシング計算を信頼できないワーカノードに頼っていることが多い。
本稿では, 相互に整合性がある場合にのみ, 報告を受理し, 報奨するインセンティブ指向の枠組みを通じて, 敵に支配される設定について検討する。
本稿では,最適化履歴を用いた適応アルゴリズムであるmathsfVISTAを提案する。
- 参考スコア(独自算出の注目度): 21.69919643934826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized machine learning often relies on outsourcing computations, such as gradient evaluations, to untrusted worker nodes. Existing robust aggregation methods can mitigate malicious behavior under honest-majority assumptions, but may fail when adversaries control a majority of the workers. We study this adversary-dominated setting through an incentive-oriented framework in which reports are accepted and rewarded only when they are mutually consistent up to a threshold. This turns the adversary from a pure saboteur into a rational agent that trades off increasing estimation error against the risk of rejection and loss of reward. We consider iterative optimization under this model. Unlike one-shot computation, iterative learning requires long-horizon decisions: permissive acceptance rules enable faster early progress but admit more adversarial corruption, while strict rules improve estimation accuracy but cause frequent rejections. We propose \mathsf{VISTA}, an adaptive algorithm that tunes the acceptance threshold using the optimization history. Numerical results show that \mathsf{VISTA} improves convergence over static thresholds. We also provide a rigorous convergence analysis showing that, with suitable incentive-aware adaptation, adversary-dominated decentralized learning can retain the asymptotic convergence behavior of standard SGD without relying on an honest majority.
- Abstract(参考訳): 分散機械学習は、信頼できないワーカノードへの勾配評価などのアウトソーシング計算に依存することが多い。
既存のロバストなアグリゲーション手法は、正直な大胆な仮定の下で悪意ある振る舞いを軽減できるが、敵が労働者の大多数を支配すれば失敗する可能性がある。
本稿では, 相互に整合性がある場合にのみ, 報告を受理し, 報奨するインセンティブ指向の枠組みを通じて, 敵に支配される設定について検討する。
これは、敵を純粋なサボツールから合理的なエージェントに変え、見積もりエラーの増加を拒絶のリスクと報酬の損失と引き換えにします。
このモデルでは反復的な最適化について検討する。
1ショットの計算とは異なり、反復学習は長い水平決定を必要とする: 寛容な受理規則はより早い早期の進行を可能にするが、より敵対的な腐敗を認める一方、厳密な規則は推定精度を改善し、頻繁に拒絶を引き起こす。
本稿では,最適化履歴を用いた適応アルゴリズム \mathsf{VISTA} を提案する。
数値計算の結果,<mathsf{VISTA} は静的しきい値の収束性を向上させることがわかった。
また、厳密な収束分析を行い、適切なインセンティブ・アウェア適応により、正当性に頼らずに標準SGDの漸近収束挙動を維持できることを示す。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Thinking by Subtraction: Confidence-Driven Contrastive Decoding for LLM Reasoning [58.331709210563616]
サブトラクションによる思考は、信頼主導のコントラスト的デコーディングアプローチである。
低信頼トークンの小さなサブセットは、誤りの推論と不要な出力拡大に不当に寄与する。
信頼駆動型コントラストデコーディング(Confidence-Driven Contrastive Decoding)は,デコーディング中の低信頼トークンを検出し,それらの位置で介入する。
論文 参考訳(メタデータ) (2026-02-20T14:13:22Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Reward Redistribution for CVaR MDPs using a Bellman Operator on L-infinity [16.835098688159004]
静的条件付きリスクリスク(CVaR)のようなテールエンドのリスク対策は、稀だが破滅的な事態を防止するために安全クリティカルな応用に用いられている。
我々は、離散化された拡張状態に依存するリスク逆値とモデルなしQ-ラーニングアルゴリズムを開発した。
実験により,本アルゴリズムはCVaR感受性ポリシーを学習し,効果的な性能保証トレードオフを実現することができた。
論文 参考訳(メタデータ) (2026-02-03T17:39:45Z) - Arbitrage: Efficient Reasoning via Advantage-Aware Speculation [71.45710345765528]
投機的復号化は、高速だが不正確なドラフトモデルを用いて推論を加速し、自動回帰的にトークンを提案する。
しかし、意味論的に等価なステップにおけるトークンミスマッチによる不要な拒絶のため、従来のトークンレベルの投機的デコーディングは、タスクの推論に苦労する。
提案するArbitrageは,ドラフトモデルとターゲットモデルとの相対的優位性に基づいて動的に生成をルーティングする,新しいステップレベルの投機生成フレームワークである。
論文 参考訳(メタデータ) (2025-12-04T17:50:53Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Beyond Greedy Exits: Improved Early Exit Decisions for Risk Control and Reliability [14.00844847268286]
早期のDeep Neural Networksは、中間層での予測を可能にすることで、適応推論を可能にする。
我々のフレームワークは、フルモデルのパフォーマンスと比較して、パフォーマンス低下(2%)を最小限に抑えながら、スピードアップ(1.70-2.10x)が一貫した改善を示している。
論文 参考訳(メタデータ) (2025-09-28T06:05:24Z) - VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。
VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。
興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文 参考訳(メタデータ) (2024-05-12T15:55:43Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。