論文の概要: Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems
- arxiv url: http://arxiv.org/abs/2510.02377v1
- Date: Tue, 30 Sep 2025 01:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.059024
- Title: Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems
- Title(参考訳): マルチLLMシステムにおける推論改善のための不確かさ対応解答選択
- Authors: Aakriti Agrawal, Rohith Aralikatti, Anirudh Satheesh, Souradip Chakraborty, Amrit Singh Bedi, Furong Huang,
- Abstract要約: 大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは依然として困難である。
既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。
校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で,計算的に効率的な手法を提案する。
- 参考スコア(独自算出の注目度): 55.6590601898194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional capabilities, yet selecting the most reliable response from multiple LLMs remains a challenge, particularly in resource-constrained settings. Existing approaches often depend on costly external verifiers, human evaluators, or self-consistency techniques that require multiple samples from a single model. While multi-LLM systems produce more diverse responses than single models and thus have greater potential, they often underperform compared to single LLM self-consistency. We propose a principled, novel and computationally efficient method to select the best response from multiple different LLMs using a calibrated log-likelihood score, implicitly leveraging the inherent knowledge and confidence of these models. Our method demonstrates improvements of approx. 4%, 3%, and 5% across both debate (multi-round LLM discussions) and non-debate (Best-of-N with multiple LLMs) settings on GSM8K, MMLU (6 subsets), and ARC datasets respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは、特にリソース制約のある環境では難しい。
既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。
マルチLLMシステムは単一モデルよりも多様な応答を生成するため、大きなポテンシャルを持つが、単一のLLM自己整合性よりも性能が劣ることが多い。
本稿では,これらのモデル固有の知識と信頼性を暗黙的に活用し,校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で計算学的に効率的な手法を提案する。
本手法は近似の改良を実証する。
GSM8K、MMLU(6つのサブセット)、ARCデータセットの2つの議論(複数回 LLM の議論)と非議論(複数 LLM のBest-of-N)の両方で 4% と 3% と 5% であった。
関連論文リスト
- Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。
我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。
我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文 参考訳(メタデータ) (2025-10-01T22:21:50Z) - Self-ensemble: Mitigating Confidence Distortion for Large Language Models [89.03110940871765]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。
この問題を解決するために自己組織化を提案する。
3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文 参考訳(メタデータ) (2025-06-02T17:59:29Z) - Optimizing Model Selection for Compound AI Systems [76.69936664916061]
本稿では,複合システムにおけるモデル選択のための効率的なフレームワークを提案する。
1つのモジュールを反復的に選択し、最も高いモジュールレベルのパフォーマンスを持つモデルを割り当てます。
すべてのモジュールで同じLLMを使用する場合と比較して、5%-70%の精度向上が期待できる。
論文 参考訳(メタデータ) (2025-02-20T18:36:25Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - UBench: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
大規模言語モデル(LLM)の不確実性を評価するための新しいベンチマークであるUBenchを紹介する。
他のベンチマークとは異なり、UBenchは信頼区間に基づいている。知識、言語、理解、推論能力にまたがる11,978の多重選択質問を含んでいる。
1) 信頼性区間に基づく手法は不確実性定量化に極めて有効である; 2) 不確実性に関して、優れたオープンソースモデルは、クローズドソースモデルと競合する性能を示す; 3) CoT と RP は、モデル信頼性を改善するための潜在的方法を示し、温度変化の影響は普遍的な規則に従わない。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Self-prompted Chain-of-Thought on Large Language Models for Open-domain
Multi-hop Reasoning [70.74928578278957]
オープンドメイン質問回答(ODQA)では、ほとんどの既存の質問はコモンセンスのシングルホップ推論を必要とする。
大規模言語モデル(LLM)は、外部コーパスなしでODQAを促進するために重要な有用性を見出した。
高品質なCoTを大量生産する自動化フレームワークSP-CoTを提案する。
論文 参考訳(メタデータ) (2023-10-20T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。