論文の概要: Consensus Is All You Need: Gossip-Based Reasoning Among Large Language Models
- arxiv url: http://arxiv.org/abs/2508.18292v1
- Date: Fri, 22 Aug 2025 05:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.495486
- Title: Consensus Is All You Need: Gossip-Based Reasoning Among Large Language Models
- Title(参考訳): Consensusは、大言語モデル間のGossipベースの推論
- Authors: Saksham Arora,
- Abstract要約: ひとつのモデルのみに頼るのではなく、分散システムのゴシッププロトコルからインスピレーションを得ます。
この"ゴシップベースのコンセンサス"が、堅牢で回復力があり、正確なマルチエージェントAI推論につながることが示されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have advanced rapidly, but no single model excels in every area -- each has its strengths and weaknesses. Instead of relying on one model alone, we take inspiration from gossip protocols in distributed systems, where information is exchanged with peers until they all come to an agreement. In this setup, models exchange answers and gradually work toward a shared solution. Each LLM acts as a node in a peer-to-peer network, sharing responses and thought processes to reach a collective decision. Our results show that this "gossip-based consensus" leads to robust, resilient, and accurate multi-agent AI reasoning. It helps overcome the weaknesses of individual models and brings out their collective strengths. This approach is similar to how humans build consensus, making AI seem more collaborative and trustworthy instead of just a black-box program.
- Abstract(参考訳): 大規模な言語モデルは急速に進歩していますが、すべての領域で単一のモデルは優れていません。
1つのモデルだけに頼るのではなく、私たちは分散システムのゴシッププロトコルからインスピレーションを得ます。
このセットアップでは、モデルが回答を交換し、徐々に共有ソリューションに向かって動きます。
各LSMはピアツーピアネットワークのノードとして機能し、応答と思考プロセスを共有して集団的な決定に達する。
私たちの結果は、この"ゴシップベースのコンセンサス"が、堅牢で回復力があり、正確なマルチエージェントAI推論につながることを示しています。
個々のモデルの弱点を克服し、その集合的な強みを引き出すのに役立ちます。
このアプローチは、人間がコンセンサスを構築する方法と似ています。
関連論文リスト
- Bayesian Social Deduction with Graph-Informed Language Models [3.7540464038118633]
社会的推論は、大きな言語モデルにとって難しい課題である。
本稿では,信念推論を構造化確率モデルに外部化するハイブリッド推論フレームワークを提案する。
提案手法はエージェント・エージェント・プレイにおけるより大きなモデルとの競合性能を実現する。
論文 参考訳(メタデータ) (2025-06-21T18:45:28Z) - SPARTA ALIGNMENT: Collectively Aligning Multiple Language Models through Combat [73.529925653031]
SPARTA ALIGNMENT(SPARTA ALIGNMENT)を提案する。
各イテレーションにおいて、1つの命令と2つのモデルがデュエルのために選択され、他のモデルが2つのレスポンスを評価し、それらの評価スコアは、適応されたエロランクベースの評価システムを介して集約される。
ピア評価された戦闘結果は、敗戦よりも勝利の反応が優先される選好ペアとなり、各イテレーションの最後にこれらの選好からすべてのモデルが学習される。
論文 参考訳(メタデータ) (2025-06-05T07:51:23Z) - Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning [31.196865401472664]
自然言語の環境に関する生産的な議論を人間による実演なしで行うように、言語モデルを訓練する。
我々はエージェントの目標を利用して、コミュニケーションを誘導する高密度報酬信号として、世界の有用な情報を予測する。
我々は、容疑者の告発や証拠提供など、我々の技術による創発的行動を分析し、強力な議論を可能にすることを発見した。
論文 参考訳(メタデータ) (2025-02-09T22:44:45Z) - Towards Reasoning in Large Language Models via Multi-Agent Peer Review
Collaboration [28.299379264080603]
大規模言語モデル(LLM)は、一般的な自然言語処理タスクにおいて顕著な能力を示しているが、複雑な推論タスクでは不足することが多い。
近年の研究では、自己正当性のような人間的な問題解決戦略を探求し、単一モデル推論能力の境界を推し進めている。
学術的ピアレビュープロセスをエミュレートするマルチエージェントコラボレーション戦略を導入する。
論文 参考訳(メタデータ) (2023-11-14T13:27:07Z) - Combining Deep Reinforcement Learning and Search with Generative Models for Game-Theoretic Opponent Modeling [30.465929764202155]
深層ゲーム理論強化学習を用いた対戦型モデリングのためのスケーラブルで汎用的なマルチエージェントトレーニングシステムを提案する。
まず,モンテカルロ木探索(MCTS)に基づく最適応答アルゴリズムGenBRを提案する。
我々は,政策空間対応オラクル (PSRO) の枠組みの下で,この新たな手法を用いて,エホフライン反対モデルの自動生成を行う。
論文 参考訳(メタデータ) (2023-02-01T23:06:23Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - I love your chain mail! Making knights smile in a fantasy game world:
Open-domain goal-oriented dialogue agents [69.68400056148336]
我々は、模倣学習したチトチャットモデルに対して強化学習を施した目標指向モデルを訓練する。
両モデルが逆モデルベースラインより優れており,目標を達成するために対話相手と自然に会話できることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:22:36Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。