論文の概要: Learning to Trust the Crowd: A Multi-Model Consensus Reasoning Engine for Large Language Models
- arxiv url: http://arxiv.org/abs/2601.07245v1
- Date: Mon, 12 Jan 2026 06:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.245306
- Title: Learning to Trust the Crowd: A Multi-Model Consensus Reasoning Engine for Large Language Models
- Title(参考訳): 群衆を信頼するために学ぶ:大規模言語モデルのためのマルチモデル合意推論エンジン
- Authors: Pranav Kallem,
- Abstract要約: 大規模言語モデル(LLM)は平均年齢のパフォーマンスは高いが、インスタンスレベルでは信頼性が低い。
本稿では,LLM出力の集合を教師付きメタラーナへの入力として扱うマルチモデル・コンセンサス・推論エンジンを提案する。
このシステムは、自然言語の応答をセマンティックな埋め込み、ペアの類似性とクラスタリング統計、語彙的および構造的手がかり、推論品質スコア、信頼度推定、モデル固有の事前情報を用いて構造化された特徴にマッピングする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong aver- age performance yet remain unreliable at the instance level, with frequent hallucinations, brittle failures, and poorly calibrated confidence. We study reliability through the lens of multi-model consensus: given responses from several heterogeneous LLMs, can we learn which answer is most likely correct for a given query? We introduce a Multi-Model Consensus Reasoning Engine that treats the set of LLM outputs as input to a supervised meta-learner. The system maps natural language responses into structured features using semantic embeddings, pairwise similarity and clustering statistics, lexical and structural cues, reasoning-quality scores, confidence estimates, and model-specific priors, and then applies gradient-boosted trees, listwise ranking, and graph neural networks over similarity graphs of answers. Using three open-weight LLMs evaluated on compact, resource- constrained subsets of GSM8K, ARC-Challenge, HellaSwag, and TruthfulQA, our best graph-attention-based consensus model improves macro-average accuracy by 4.6 percentage points over the strongest single LLM and by 8.1 points over majority vote, while also yielding lower Brier scores and fewer TruthfulQA hal- lucinations. Ablation and feature-importance analyses show that semantic agreement and clustering features are most influential, with reasoning-quality and model-prior features providing com- plementary gains, suggesting supervised multi-model consensus is a practical route toward more reliable LLM behavior, even in a modest single-machine setup.
- Abstract(参考訳): 大規模言語モデル(LLM)は、平均年齢の強いパフォーマンスを達成するが、頻繁に幻覚、不安定な失敗、そして品質の低い信頼性で、インスタンスレベルでは信頼性が保たれる。
複数の異種LCMからの応答を考慮すれば、与えられたクエリに対してどの答えが最も正しいかを学習できますか?
本稿では,LLM出力の集合を教師付きメタラーナへの入力として扱うマルチモデル・コンセンサス・推論エンジンを提案する。
このシステムは、自然言語応答をセマンティック埋め込み、ペアワイズ類似度とクラスタリング統計、語彙的および構造的手がかり、推論品質スコア、信頼度推定、モデル固有の先行値を用いて構造化された特徴にマッピングし、回答の類似性グラフに勾配付き木、リストワイズランキング、グラフニューラルネットワークを適用する。
GSM8K,ARC-Challenge,HellaSwag,TruthfulQAのコンパクトかつ資源制約付きサブセットで評価した3つのオープンウェイトLCMを用いて,グラフアテンションベースのコンセンサスモデルにより,最強のシングルLSMよりも4.6ポイント,多数決より8.1ポイント,さらに,より低いブライアスコアとより少ないトルスフルQA半減率のマクロ平均精度が向上する。
アブレーションと特徴重要度分析は、セマンティックコンセンサスとクラスタリング機能が最も影響を受けており、推論品質とモデル優先の特徴が相補的な利得を提供しており、教師付きマルチモデルコンセンサスは、控えめな単一マシン構成であっても、より信頼性の高いLCM行動への実践的な経路であることを示している。
関連論文リスト
- Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Utilizing Large Language Models for Machine Learning Explainability [37.31918138232927]
本研究では,機械学習(ML)ソリューションを自律的に生成する際の,大規模言語モデル(LLM)の説明可能性について検討する。
最先端の3つのLCMは、ランダムフォレスト、XGBoost、マルチレイヤーパーセプトロン、ロング短期記憶ネットワークの4つの共通分類器のためのトレーニングパイプラインを設計するよう促される。
生成したモデルは、SHAP(SHapley Additive exPlanations)を用いた予測性能(リコール、精度、F1スコア)と説明可能性の観点から評価される。
論文 参考訳(メタデータ) (2025-10-08T11:46:23Z) - Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems [55.6590601898194]
大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは依然として困難である。
既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。
校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で,計算的に効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:19Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - LENS: Learning Ensemble Confidence from Neural States for Multi-LLM Answer Integration [0.0]
大きな言語モデル(LLM)は、様々なタスクで素晴らしいパフォーマンスを示しています。
LENS(Learning ENsemble confidence from Neural States)は、内部表現を分析してモデル信頼度を推定する新しい手法である。
論文 参考訳(メタデータ) (2025-07-31T00:35:45Z) - SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。
SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文 参考訳(メタデータ) (2025-02-28T19:27:29Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Graph-based Confidence Calibration for Large Language Models [22.394717844099684]
本稿では,大規模言語モデルによって生成された複数の出力の自己整合性に基づいて,応答正当性を評価するための補助学習モデルを提案する。
提案手法は,複数応答間の一致を表現するために整合性グラフを構築し,グラフニューラルネットワーク(GNN)を用いて各応答の正しさを推定する。
論文 参考訳(メタデータ) (2024-11-03T20:36:44Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。