論文の概要: Multi-Agent Collaborative Intelligence: Dual-Dial Control for Reliable LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.04488v1
- Date: Mon, 06 Oct 2025 04:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.685118
- Title: Multi-Agent Collaborative Intelligence: Dual-Dial Control for Reliable LLM Reasoning
- Title(参考訳): 多エージェント協調インテリジェンス:信頼性LLM推論のためのデュアルダイアル制御
- Authors: Edward Y. Chang, Ethan Y. Chang,
- Abstract要約: MACIは2つの独立したダイヤルを持つアクティブコントローラであり、行動から情報を分離する。
モデレーターは、不一致、重複、証拠品質、議論品質を追跡し、高原を獲得すると停止する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent debate often wastes compute by using a fixed adversarial stance, aggregating without deliberation, or stopping on heuristics. We introduce MACI, an active controller with two independent dials that decouple information from behavior: an information dial that gates evidence by quality, and a behavior dial that schedules contentiousness from exploration to consolidation. A moderator tracks disagreement, overlap, evidence quality, and argument quality, and halts when gains plateau. We provide theory-lite guarantees for nonincreasing dispersion and provable termination, with a budget-feasible scheduler. Across clinical diagnosis and news-bias tasks, MACI improves accuracy and calibration while reducing tokens, and converts residual uncertainty into precision RAG plans that specify what to retrieve next. We use a cross-family LLM judge (CRIT) as a conservative soft weight and stop signal, validated for order invariance and judge-swap stability; stability depends on using high-capability judges. MACI turns debate into a budget-aware, measurable, and provably terminating controller.
- Abstract(参考訳): マルチエージェントの議論は、しばしば、固定された敵の姿勢を使ったり、熟考せずに集約したり、ヒューリスティックスを止めることで計算を無駄にする。
我々は,2つの独立したダイアルを持つアクティブコントローラであるMACIを紹介した。情報ダイアルは,証拠を質的にゲートする情報ダイアルであり,行動ダイアルは探索から統合まで競合性をスケジュールする。
モデレーターは、不一致、重複、証拠品質、議論品質を追跡し、高原を獲得すると停止する。
我々は,予算実現可能なスケジューラを用いて,非増加分散と証明可能な終了を理論的に保証する。
臨床診断とニュースバイアスのタスク全体で、MACIはトークンを減らしながら正確さと校正を改善し、残欠不確かさを次に何を取得するかを指定する精密なRAG計画に変換する。
我々は,保存的軟度および停止信号として家族間LCM判定器(CRIT)を用い,整合性および判定スワップ安定性の検証を行った。
MACIは議論を予算を意識し、測定可能で、確実に終了するコントローラに変える。
関連論文リスト
- Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees [2.8647133890966994]
Proof-of-Perception (PoP) は、マルチモーダル推論を明示的な信頼性を保証する実行可能なグラフとしてキャストするツール用フレームワークである。
PoPは検証可能な証拠に答え、エラーの複合化と幻覚を減らし、原理化された精度計算のトレードオフを可能にする。
論文 参考訳(メタデータ) (2026-02-27T21:35:12Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Planner-Auditor Twin: Agentic Discharge Planning with FHIR-Based LLM Planning, Guideline Recall, Optional Caching and Self-Improvement [2.0755366440393748]
大きな言語モデル(LLM)は、臨床退院計画の約束を示すが、その使用は幻覚、排便、誤診された自信によって制限される。
安全性と信頼性を向上させる自己改善型キャッシュオプションのPlanner-Auditorフレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-28T23:04:11Z) - Agentic Confidence Calibration [67.50096917021521]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。
HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。
HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (2026-01-22T09:08:25Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Calibratable Disambiguation Loss for Multi-Instance Partial-Label Learning [53.9713678229744]
MIPL(Multi-instance partial-label Learning)は、インスタンス空間とラベル空間の両方において、不正確な監督の課題に対処する弱い教師付きフレームワークである。
既存のMIPLアプローチは、しばしばキャリブレーションが悪く、信頼性を損なう。
分類精度と校正性能を同時に向上するプラグアンドプレイ校正型曖昧さ損失(CDL)を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:58:31Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Towards Agents That Know When They Don't Know: Uncertainty as a Control Signal for Structured Reasoning [19.099363114326355]
大規模言語モデル(LLM)エージェントは、構造化されたバイオメディカルデータ環境にますますデプロイされる。
クエリ条件付きマルチテーブル要約のための不確実性認識エージェントを提案する。
論文 参考訳(メタデータ) (2025-09-02T15:12:10Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Uncertainty-aware Unsupervised Multi-Object Tracking [33.53331700312752]
教師なしマルチオブジェクトトラッカーは、信頼できる機能埋め込みの学習に劣る。
最近の自己監督技術は採用されているが、時間的関係を捉えられなかった。
本稿では、不確実性問題は避けられないが、不確実性自体を活用して学習された一貫性を向上させることができると論じる。
論文 参考訳(メタデータ) (2023-07-28T09:03:06Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。