論文の概要: Fortytwo: Swarm Inference with Peer-Ranked Consensus
- arxiv url: http://arxiv.org/abs/2510.24801v1
- Date: Mon, 27 Oct 2025 23:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.577144
- Title: Fortytwo: Swarm Inference with Peer-Ranked Consensus
- Title(参考訳): 四十二 ピアランドコンセンサスによる群れ推論
- Authors: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov,
- Abstract要約: 我々は、AI推論において優れたパフォーマンスを達成するために、Swarmの知能原則と分散ペアのランキングコンセンサスを活用する新しいプロトコルFortytwoを提案する。
独自のBradley-Terry-styleアグリゲーションモデルを用いて、Swarm推論が多数決をかなり上回ることを示す。
- 参考スコア(独自算出の注目度): 36.94429692322632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As centralized AI hits compute ceilings and diminishing returns from ever-larger training runs, meeting demand requires an inference layer that scales horizontally in both capacity and capability. We present Fortytwo, a novel protocol that leverages swarm intelligence principles and distributed pairwise ranking consensus to achieve superior performance in AI inference. Our approach reimagines collaboration among AI nodes using swarm inference: a peer-ranked, reputation-weighted consensus across heterogeneous models that surfaces the highest-quality responses. Using pairwise ranking with a custom Bradley-Terry-style aggregation model, we demonstrate that swarm inference substantially outperforms majority voting, achieving 85.90% on GPQA Diamond versus 68.69% for majority voting with the same model set - an improvement of +17.21 percentage points (approximately +25.1% relative). The protocol incorporates on-chain reputation so node influence adapts to demonstrated accuracy over time, yielding a meritocratic consensus that filters low-quality or malicious participants. To resist Sybil attacks, Fortytwo employs proof-of-capability in its consensus: nodes must successfully complete calibration/test requests and stake reputation to enter ranking rounds, making multi-identity attacks economically unattractive while preserving openness. Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and AIME, our evaluation indicates higher accuracy and strong resilience to adversarial and noisy free-form prompting (e.g., prompt-injection degradation of only 0.12% versus 6.20% for a monolithic single-model baseline), while retaining practical deployability. Together, these results establish a foundation for decentralized AI systems - democratizing access to high-quality inference through collective intelligence without sacrificing reliability or security.
- Abstract(参考訳): 集中型AIが計算天井に到達し、より大規模なトレーニング実行からのリターンが低下するにつれて、要求を満たすには、キャパシティとキャパシティの両方で水平にスケールする推論層が必要である。
我々は、AI推論において優れたパフォーマンスを達成するために、Swarmの知能原則と分散ペアのランキングコンセンサスを活用する新しいプロトコルFortytwoを提案する。
我々のアプローチは、Swarm推論を使ってAIノード間のコラボレーションを再定義する: 高品質な応答を表面化する異種モデル間のピアランクで評判の重み付けされたコンセンサス。
独自のBradley-Terry-styleアグリゲーションモデルを用いて、Swarm推論は、GPQAダイアモンドで85.90%、同じモデルで過半数投票で68.69%、+17.21ポイント(約25.1%)で大幅に上回っていることを示す。
このプロトコルはオンチェーンの評判を取り入れているので、ノードの影響は時間とともに正確さを証明し、低品質の参加者や悪意のある参加者をフィルターするメリットあるコンセンサスをもたらす。
ノードはキャリブレーション/テストの要求を完了し、ランキングラウンドに参加するために評価を得る必要があり、オープン性を維持しながら経済的に不利な攻撃を行う。
GPQA Diamond, LiveCodeBench, AIMEを含む6つの挑戦的ベンチマークにおいて, 実用的デプロイ性を維持しつつ, 対向的かつノイズの多いフリーフォームプロンプト(例えば, モノリシック単一モデルベースラインでは0.12%と6.20%の急激なインジェクション劣化)に対する高い精度と強いレジリエンスを示す。
これらの結果は、信頼性やセキュリティを犠牲にすることなく、集団知性を通じて高品質な推論へのアクセスを民主化する、分散AIシステムの基盤を確立します。
関連論文リスト
- DGTEN: A Robust Deep Gaussian based Graph Neural Network for Dynamic Trust Evaluation with Uncertainty-Quantification Support [2.4897847232811716]
DGTEN (Deep Gaussian based Trust Evaluation Network) は統合グラフフレームワークを導入している。
不確実性を認識したメッセージパッシング、表現力のある時間的モデリング、信頼を目標とする攻撃に対するビルトインディフェンスを組み合わせる。
署名された2つのBitcoinトラストネットワークでは、DGTENが大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-08T23:38:55Z) - RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文 参考訳(メタデータ) (2025-10-02T16:24:01Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Hybrid Reputation Aggregation: A Robust Defense Mechanism for Adversarial Federated Learning in 5G and Edge Network Environments [0.0]
5Gおよびエッジネットワーク環境におけるフェデレートラーニング(FL)は、敵のクライアントによる深刻なセキュリティ脅威に直面します。
本稿では,攻撃タイプを事前に知ることなく,FLにおける敵の動作を防御する,新しいロバストアグリゲーション機構であるHybrid Reputation Aggregation(HRA)を紹介する。
HRAは、幾何学的異常検出と、モーメントに基づくクライアントの評判追跡を組み合わせる。
論文 参考訳(メタデータ) (2025-09-22T17:18:59Z) - Nearest Neighbor Projection Removal Adversarial Training [5.146355145217634]
本稿では, クラス間の依存関係を, クラス間およびクリーンなサンプルから投影することで, クラス間近接を積極的に緩和する新しい学習フレームワークを提案する。
提案手法はまず,各対向サンプルに対して最も近いクラス間隣人を特定し,続いてこれらの隣人への投影を取り除き,より強力な特徴分離性を実現する。
論文 参考訳(メタデータ) (2025-09-09T12:38:41Z) - VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。
VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。
興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文 参考訳(メタデータ) (2024-05-12T15:55:43Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。