Fugu-MT 論文翻訳(概要): Council Mode: Mitigating Hallucination and Bias in LLMs via Multi-Agent Consensus

論文の概要: Council Mode: Mitigating Hallucination and Bias in LLMs via Multi-Agent Consensus

arxiv url: http://arxiv.org/abs/2604.02923v1
Date: Fri, 03 Apr 2026 09:40:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.435726
Title: Council Mode: Mitigating Hallucination and Bias in LLMs via Multi-Agent Consensus
Title（参考訳）: カウンシルモード:マルチエージェント・コンセンサスによるLSMにおける幻覚とバイアスの緩和
Authors: Shuai Wu, Xue Li, Yanna Feng, Yufang Li, Zhijun Wang,
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる優れた機能を実現している。 LLMはしばしば幻覚に悩まされ、もっともらしいが事実的に誤った内容を生み出す。本稿では,新しいマルチエージェント・コンセンサス・フレームワークであるカウンシル・モードを提案する。我々は、このアーキテクチャをオープンソースのAIワークスペースで実装し、評価する。
参考スコア（独自算出の注目度）: 11.49727358706339
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs), particularly those employing Mixture-of-Experts (MoE) architectures, have achieved remarkable capabilities across diverse natural language processing tasks. However, these models frequently suffer from hallucinations -- generating plausible but factually incorrect content -- and exhibit systematic biases that are amplified by uneven expert activation during inference. In this paper, we propose the Council Mode, a novel multi-agent consensus framework that addresses these limitations by dispatching queries to multiple heterogeneous frontier LLMs in parallel and synthesizing their outputs through a dedicated consensus model. The Council pipeline operates in three phases: (1) an intelligent triage classifier that routes queries based on complexity, (2) parallel expert generation across architecturally diverse models, and (3) a structured consensus synthesis that explicitly identifies agreement, disagreement, and unique findings before producing the final response. We implement and evaluate this architecture within an open-source AI workspace. Our comprehensive evaluation across multiple benchmarks demonstrates that the Council Mode achieves a 35.9% relative reduction in hallucination rates on the HaluEval benchmark and a 7.8-point improvement on TruthfulQA compared to the best-performing individual model, while maintaining significantly lower bias variance across domains. We provide the mathematical formulation of the consensus mechanism, detail the system architecture, and present extensive empirical results with ablation studies.
Abstract（参考訳）: 大規模言語モデル(LLM)、特にMixture-of-Experts(MoE)アーキテクチャを採用するものは、さまざまな自然言語処理タスクにまたがる優れた機能を実現している。しかし、これらのモデルはしばしば幻覚に悩まされ、仮説の間に不均一な専門家のアクティベーションによって増幅される体系的なバイアスが生じる。本稿では,複数のヘテロジニアフロンティアLSMに並列にクエリをディスパッチし,その出力を専用のコンセンサスモデルで合成することで,これらの制約に対処する新しいマルチエージェントコンセンサスフレームワークであるカウンシルモードを提案する。カウンシルパイプラインは,1)複雑度に基づいてクエリをルーティングするインテリジェントトリアージ分類器,(2)アーキテクチャ的に多様なモデルにまたがる並列専門家生成,(3)最終的な応答を生成する前に合意,意見の一致,ユニークな発見を明確に識別する構造化されたコンセンサス合成の3段階で動作する。我々は、このアーキテクチャをオープンソースのAIワークスペースで実装し、評価する。複数のベンチマークを総合的に比較した結果,HluEvalベンチマークではカウンシルモードが35.9%の幻覚率を減少させ,最も優れた個々のモデルと比較して7.8ポイントのTruthfulQAの改善を実現し,ドメイン間のバイアス分散を著しく低減した。本稿では, コンセンサス機構の数学的定式化, システムアーキテクチャの詳細, アブレーション研究による広範な実験結果について述べる。

関連論文リスト

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文参考訳（メタデータ） (2026-03-09T07:15:23Z)
UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? [50.92401586025528]
統一マルチモーダルモデルは、最近強力な生成能力を示したが、生成が理解を改善したかどうかはまだ不明である。提案するUniG2U-Benchは,G2U(Generation-to-understanding)評価を7つのシステマと30のサブタスクに分類する総合ベンチマークである。
論文参考訳（メタデータ） (2026-03-03T18:36:16Z)
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文参考訳（メタデータ） (2026-02-12T18:59:49Z)
PRISM: A Principled Framework for Multi-Agent Reasoning via Gain Decomposition [42.31805270016533]
大規模言語モデル(LLM)の推論能力を高めるための有望なパラダイムとして,マルチエージェントコラボレーションが登場した。既存のアプローチは、パフォーマンス向上を駆動する原則的なガイダンスや、マルチエージェント推論を体系的に最適化する方法が欠如している。マルチエージェント推論ゲインを3つの概念的に独立な次元に分解する統合理論フレームワークを導入する。
論文参考訳（メタデータ） (2026-02-09T12:24:56Z)
Fusion or Confusion? Multimodal Complexity Is Not All You Need [1.2472265402088736]
標準化された条件下で19のハイインパクト手法を再実装し、最大23のモダリティを持つ9つの多様なデータセットで評価する。本稿では,マルチモーダル学習のための簡易ベースライン(SimBaMM)を提案する。私たちは、アーキテクチャのノベルティの追求から離れて、方法論的な厳格さへと焦点を移すことを主張します。
論文参考訳（メタデータ） (2025-12-28T16:20:36Z)
Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文参考訳（メタデータ） (2025-12-01T10:05:46Z)
AI Founding Fathers: A Case Study of GIS Search in Multi-Agent Pipelines [0.0]
大規模言語モデル(LLMs)は例外的な流行を示すが、それらからより強力な推論能力を引き出す努力は続けられている。本稿では,LLM推論と最適化の体系的枠組みを推し進める。
論文参考訳（メタデータ） (2025-11-12T05:52:55Z)
Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文参考訳（メタデータ） (2025-06-03T04:19:47Z)
Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。 RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T08:33:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。