論文の概要: Increasing LLM response trustworthiness using voting ensembles
- arxiv url: http://arxiv.org/abs/2510.04048v1
- Date: Sun, 05 Oct 2025 06:02:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.423544
- Title: Increasing LLM response trustworthiness using voting ensembles
- Title(参考訳): 投票アンサンブルを用いたLLM応答信頼性の向上
- Authors: Aparna Nair-Kanneganti, Trevor J. Chan, Shir Goldfinger, Emily Mackay, Brian Anthony, Alison Pouch,
- Abstract要約: 質問応答に関する理論的枠組みを導入し,支配的な回答が不足している場合に,アンサンブルが回答の提供を「継続」することを許すことで,残りの回答の信頼性を劇的に向上させることができることを示す。
高い制限のある投票アンサンブルを用いて、回答の信頼性の大きな向上を達成できる一方で、応答の収量と精度は比較的緩やかに低下する。
- 参考スコア(独自算出の注目度): 0.20524609401792396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite huge advances, LLMs still lack convenient and reliable methods to quantify the uncertainty in their responses, making them difficult to trust in high-stakes applications. One of the simplest approaches to eliciting more accurate answers is to select the mode of many responses, a technique known as ensembling. In this work, we expand on typical ensembling approaches by looking at ensembles with a variable voting threshold. We introduce a theoretical framework for question answering and show that, by permitting ensembles to "abstain" from providing an answer when the dominant response falls short of the threshold, it is possible to dramatically increase the trustworthiness of the remaining answers. From this framework, we derive theoretical results as well as report experimental results on two problem domains: arithmetic problem solving and clinical-note question-answering. In both domains, we observe that large gains in answer trustworthiness can be achieved using highly restrictive voting ensembles, while incurring relatively modest reductions in response yield and accuracy. Due to this quality, voting ensembles may be particularly useful in applications - such as healthcare and data annotation - that require a high degree of certainty but which may not require that every question receive an automated answer.
- Abstract(参考訳): 大きな進歩にもかかわらず、LSMは応答の不確かさを定量化するための便利で信頼性の高い手法をいまだに欠いているため、高信頼のアプリケーションへの信頼は困難である。
より正確な答えを導き出す最も単純なアプローチの1つは、多くの応答のモードを選択することである。
本研究では,様々な投票閾値を持つアンサンブルに着目し,一般的なアンサンブル手法を拡張した。
質問応答の理論的枠組みを導入し,支配的な応答がしきい値に届かない場合に,アンサンブルが「確実に」答えを出すことを許すことで,残りの回答の信頼性を劇的に向上させることができることを示す。
この枠組みから,算術的問題解決と臨床注視的質問応答という2つの問題領域に関する理論的結果と実験結果を導出する。
両領域とも、高い制限のある投票アンサンブルを用いて、回答の信頼性の大きな向上を達成できる一方で、応答の収量と精度は比較的緩やかに低下する。
この品質のため、投票のアンサンブルは、医療やデータアノテーションといった、高い確実性を必要とするアプリケーションで特に有用であるが、すべての質問が自動化された回答を受け取る必要はないかもしれない。
関連論文リスト
- Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。
我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。
我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文 参考訳(メタデータ) (2025-10-01T22:21:50Z) - Contextual Candor: Enhancing LLM Trustworthiness Through Hierarchical Unanswerability Detection [0.0]
本稿では,大規模言語モデル(LLM)のための新しいハイブリッド学習パラダイムであるReinforced Unanswerability Learning (RUL)を紹介する。
RULは、多段階学習戦略によって導かれるLLMの生成コアに、識別不能な予測ヘッドを統合する。
実験は、RULの優れた性能を示し、文、段落、ランキングレベルにわたる解答不能検出において、はるかに高い精度を達成する。
論文 参考訳(メタデータ) (2025-06-01T17:59:27Z) - Collective Reasoning Among LLMs: A Framework for Answer Validation Without Ground Truth [0.0]
いくつかの先進的な大規模言語モデルが複雑で博士レベルの確率問題を生成・解き出す新しいアプローチを導入する。
本研究は, 多様なモデル間の合意が, アウトプットの信頼性を如何に示すかに焦点を当てる。
論文 参考訳(メタデータ) (2025-02-28T06:20:52Z) - LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation [5.255129053741665]
大規模言語モデル(LLM)は、基本質問応答(QA)に起因して、様々な領域にわたる高度なタスクにおいて優れた機能を示した。
そこで,本稿では,包含確率から方向グラフを構築することにより,方向不安定性を捉える不確実性を評価する新しい手法を提案する。
また、提案したレイヤに既存の作業のセマンティクスの不確実性を統合する方法も提供します。
論文 参考訳(メタデータ) (2024-07-01T06:11:30Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Reranking Overgenerated Responses for End-to-End Task-Oriented Dialogue
Systems [71.33737787564966]
エンド・ツー・エンド(E2E)タスク指向対話システム(ToD)は、いわゆる「いいね!
本稿では,システムによって当初過剰に生成された応答リストから高品質な項目を選択する方法を提案する。
本研究では,最先端のE2E ToDシステムを2.4BLEU,3.2ROUGE,2.8 METEORで改善し,新たなピーク値を得た。
論文 参考訳(メタデータ) (2022-11-07T15:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。