Fugu-MT 論文翻訳(概要): Fortytwo: Swarm Inference with Peer-Ranked Consensus

論文の概要: Fortytwo: Swarm Inference with Peer-Ranked Consensus

arxiv url: http://arxiv.org/abs/2510.24801v1
Date: Mon, 27 Oct 2025 23:19:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-30 15:50:44.577144
Title: Fortytwo: Swarm Inference with Peer-Ranked Consensus
Title（参考訳）: 四十二ピアランドコンセンサスによる群れ推論
Authors: Vladyslav Larin, Ihor Naumenko, Aleksei Ivashov, Ivan Nikitin, Alexander Firsov,
Abstract要約: 我々は、AI推論において優れたパフォーマンスを達成するために、Swarmの知能原則と分散ペアのランキングコンセンサスを活用する新しいプロトコルFortytwoを提案する。独自のBradley-Terry-styleアグリゲーションモデルを用いて、Swarm推論が多数決をかなり上回ることを示す。
参考スコア（独自算出の注目度）: 36.94429692322632
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As centralized AI hits compute ceilings and diminishing returns from ever-larger training runs, meeting demand requires an inference layer that scales horizontally in both capacity and capability. We present Fortytwo, a novel protocol that leverages swarm intelligence principles and distributed pairwise ranking consensus to achieve superior performance in AI inference. Our approach reimagines collaboration among AI nodes using swarm inference: a peer-ranked, reputation-weighted consensus across heterogeneous models that surfaces the highest-quality responses. Using pairwise ranking with a custom Bradley-Terry-style aggregation model, we demonstrate that swarm inference substantially outperforms majority voting, achieving 85.90% on GPQA Diamond versus 68.69% for majority voting with the same model set - an improvement of +17.21 percentage points (approximately +25.1% relative). The protocol incorporates on-chain reputation so node influence adapts to demonstrated accuracy over time, yielding a meritocratic consensus that filters low-quality or malicious participants. To resist Sybil attacks, Fortytwo employs proof-of-capability in its consensus: nodes must successfully complete calibration/test requests and stake reputation to enter ranking rounds, making multi-identity attacks economically unattractive while preserving openness. Across six challenging benchmarks, including GPQA Diamond, LiveCodeBench, and AIME, our evaluation indicates higher accuracy and strong resilience to adversarial and noisy free-form prompting (e.g., prompt-injection degradation of only 0.12% versus 6.20% for a monolithic single-model baseline), while retaining practical deployability. Together, these results establish a foundation for decentralized AI systems - democratizing access to high-quality inference through collective intelligence without sacrificing reliability or security.
Abstract（参考訳）: 集中型AIが計算天井に到達し、より大規模なトレーニング実行からのリターンが低下するにつれて、要求を満たすには、キャパシティとキャパシティの両方で水平にスケールする推論層が必要である。我々は、AI推論において優れたパフォーマンスを達成するために、Swarmの知能原則と分散ペアのランキングコンセンサスを活用する新しいプロトコルFortytwoを提案する。我々のアプローチは、Swarm推論を使ってAIノード間のコラボレーションを再定義する: 高品質な応答を表面化する異種モデル間のピアランクで評判の重み付けされたコンセンサス。独自のBradley-Terry-styleアグリゲーションモデルを用いて、Swarm推論は、GPQAダイアモンドで85.90%、同じモデルで過半数投票で68.69%、+17.21ポイント(約25.1%)で大幅に上回っていることを示す。このプロトコルはオンチェーンの評判を取り入れているので、ノードの影響は時間とともに正確さを証明し、低品質の参加者や悪意のある参加者をフィルターするメリットあるコンセンサスをもたらす。ノードはキャリブレーション/テストの要求を完了し、ランキングラウンドに参加するために評価を得る必要があり、オープン性を維持しながら経済的に不利な攻撃を行う。 GPQA Diamond, LiveCodeBench, AIMEを含む6つの挑戦的ベンチマークにおいて, 実用的デプロイ性を維持しつつ, 対向的かつノイズの多いフリーフォームプロンプト(例えば, モノリシック単一モデルベースラインでは0.12%と6.20%の急激なインジェクション劣化)に対する高い精度と強いレジリエンスを示す。これらの結果は、信頼性やセキュリティを犠牲にすることなく、集団知性を通じて高品質な推論へのアクセスを民主化する、分散AIシステムの基盤を確立します。

関連論文リスト

PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference [6.568081870814357]
PRISMは、ステップレベルの検証を用いて、人口浄化とソリューションアグリゲーションの両方を導く推論アルゴリズムである。数学や科学のベンチマークの他、PRISMは既存のDEEPTHINK法よりも優れている。
論文参考訳（メタデータ） (2026-03-03T00:03:42Z)
BiRQA: Bidirectional Robust Quality Assessment for Images [49.74447451098852]
フル参照画像品質評価(FR IQA)は、画像圧縮、復元、生成モデリングにおいて重要である。本稿では、双方向の多スケールピラミッド内で4つの高速補完特徴を処理するコンパクトFR IQA計量モデルであるBiRQAを提案する。 5つのパブリックFR IQAベンチマークでは、BiRQAは以前のSOTAモデルよりも3倍高速で動作しながら、以前の状態(SOTA)より優れ、あるいは一致している。
論文参考訳（メタデータ） (2026-02-23T20:52:56Z)
Adversarial Question Answering Robustness: A Multi-Level Error Analysis and Mitigation Study [0.0]
質問応答(QA)システムは、SQuADのような標準ベンチマークで印象的なパフォーマンスを達成するが、敵の例には弱いままである。本研究は,AddSent逆数データセット上での変圧器モデルの逆数ロバスト性について検討する。
論文参考訳（メタデータ） (2026-01-06T04:20:33Z)
EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。 TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。 200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文参考訳（メタデータ） (2025-12-29T14:48:40Z)
Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning [12.354777054071379]
テスト時間強化学習は、多数決結果を擬似ラベルとして使用することにより、注釈付きデータへの依存を軽減する。この投票戦略は、しばしば確認バイアスを引き起こし、スパース報酬に悩まされ、全体的なパフォーマンスが制限される。これらの問題に対処するために,サブグループ固有のステップワイド信頼度重み付き擬似ラベル推定(SCOPE)を提案する。
論文参考訳（メタデータ） (2025-12-17T07:21:54Z)
DGTEN: A Robust Deep Gaussian based Graph Neural Network for Dynamic Trust Evaluation with Uncertainty-Quantification Support [2.4897847232811716]
DGTEN (Deep Gaussian based Trust Evaluation Network) は統合グラフフレームワークを導入している。不確実性を認識したメッセージパッシング、表現力のある時間的モデリング、信頼を目標とする攻撃に対するビルトインディフェンスを組み合わせる。署名された2つのBitcoinトラストネットワークでは、DGTENが大幅に改善されている。
論文参考訳（メタデータ） (2025-10-08T23:38:55Z)
RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文参考訳（メタデータ） (2025-10-02T16:24:01Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
Hybrid Reputation Aggregation: A Robust Defense Mechanism for Adversarial Federated Learning in 5G and Edge Network Environments [0.0]
5Gおよびエッジネットワーク環境におけるフェデレートラーニング(FL)は、敵のクライアントによる深刻なセキュリティ脅威に直面します。本稿では,攻撃タイプを事前に知ることなく,FLにおける敵の動作を防御する,新しいロバストアグリゲーション機構であるHybrid Reputation Aggregation(HRA)を紹介する。 HRAは、幾何学的異常検出と、モーメントに基づくクライアントの評判追跡を組み合わせる。
論文参考訳（メタデータ） (2025-09-22T17:18:59Z)
Nearest Neighbor Projection Removal Adversarial Training [5.146355145217634]
本稿では, クラス間の依存関係を, クラス間およびクリーンなサンプルから投影することで, クラス間近接を積極的に緩和する新しい学習フレームワークを提案する。提案手法はまず,各対向サンプルに対して最も近いクラス間隣人を特定し,続いてこれらの隣人への投影を取り除き,より強力な特徴分離性を実現する。
論文参考訳（メタデータ） (2025-09-09T12:38:41Z)
VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。 VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文参考訳（メタデータ） (2024-05-12T15:55:43Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
Using Sampling to Estimate and Improve Performance of Automated Scoring Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文参考訳（メタデータ） (2021-11-17T05:00:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。