論文の概要: Robust Uncertainty Quantification for Factual Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.00348v1
- Date: Thu, 01 Jan 2026 14:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.39223
- Title: Robust Uncertainty Quantification for Factual Generation of Large Language Models
- Title(参考訳): 大規模言語モデルの実時間生成のためのロバスト不確かさの定量化
- Authors: Yuhao Zhang, Zhongliang Yang, Linna Zhou,
- Abstract要約: 大規模言語モデル(LLM)技術は、プロや日常生活の様々な領域への統合を促進する。
LLM幻覚の永続的な課題は、AI生成コンテンツの信頼性と信頼性を著しく損なう重要な限界として現れている。
本研究では,複数の事象を発生させるタスクにおける不確実な定量化シナリオを提案する。
- 参考スコア(独自算出の注目度): 22.060021788289202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language model(LLM) technology has facilitated its integration into various domains of professional and daily life. However, the persistent challenge of LLM hallucination has emerged as a critical limitation, significantly compromising the reliability and trustworthiness of AI-generated content. This challenge has garnered significant attention within the scientific community, prompting extensive research efforts in hallucination detection and mitigation strategies. Current methodological frameworks reveal a critical limitation: traditional uncertainty quantification approaches demonstrate effectiveness primarily within conventional question-answering paradigms, yet exhibit notable deficiencies when confronted with non-canonical or adversarial questioning strategies. This performance gap raises substantial concerns regarding the dependability of LLM responses in real-world applications requiring robust critical thinking capabilities. This study aims to fill this gap by proposing an uncertainty quantification scenario in the task of generating with multiple facts. We have meticulously constructed a set of trap questions contained with fake names. Based on this scenario, we innovatively propose a novel and robust uncertainty quantification method(RU). A series of experiments have been conducted to verify its effectiveness. The results show that the constructed set of trap questions performs excellently. Moreover, when compared with the baseline methods on four different models, our proposed method has demonstrated great performance, with an average increase of 0.1-0.2 in ROCAUC values compared to the best performing baseline method, providing new sights and methods for addressing the hallucination issue of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)技術の急速な進歩により、プロや日常生活の様々な領域への統合が促進された。
しかし、LLM幻覚の永続的な課題は、AI生成コンテンツの信頼性と信頼性を著しく損なう重要な限界として現れている。
この挑戦は科学界で大きな注目を集め、幻覚の検出と緩和戦略に関する広範な研究が進められた。
従来の不確実性定量化アプローチは、主に従来の問合せのパラダイム内で有効性を実証するが、非正準的または反対的な問合せ戦略に直面すると顕著な欠陥を示す。
この性能ギャップは、堅牢な批判的思考能力を必要とする現実のアプリケーションにおけるLLM応答の信頼性に関するかなりの懸念を提起する。
本研究は,複数の事象を発生させるタスクにおいて,不確実な定量化シナリオを提案することによって,このギャップを埋めることを目的とする。
我々は、偽名を含む一連の罠質問を慎重に構築した。
このシナリオに基づいて, 新規で頑健な不確実性定量化法(RU)を革新的に提案する。
その有効性を検証するために、一連の実験が実施されている。
その結果,構築したトラップ質問セットは優れた性能を示した。
さらに, 提案手法は, 4種類のモデルにおけるベースライン法と比較すると, ROCAUC値の平均値が0.1-0.2増加し, LLMの幻覚問題に対処する新たな観光地や方法が提供されるなど, 優れた性能を示した。
関連論文リスト
- ESI: Epistemic Uncertainty Quantification via Semantic-preserving Intervention for Large Language Models [23.44710972442814]
不確実性定量化(UQ)はモデルの信頼性を向上させるための有望なアプローチであるが、Large Language Models(LLM)の不確実性は自明ではない。
本稿では,意味保存介入前後のモデル出力の変動を計測する新しいグレイボックス不確実性定量化手法を提案する。
論文 参考訳(メタデータ) (2025-10-15T02:46:43Z) - Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。
従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。
本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文 参考訳(メタデータ) (2024-12-07T06:56:01Z) - A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks [10.909463767558023]
大規模言語モデル(LLM)は人工知能に革命をもたらしたが、重要なドメインにまたがるデプロイメントは、悪意のある攻撃に直面した際の異常な振る舞いを懸念している。
本稿では,このような不確実性を特定する上で,従来のカバレッジ基準の有効性を評価するための総合的な実証的研究を行う。
我々は、クエリを正規またはジェイルブレイクとして分類する際の高精度(平均93.61%)を実現するリアルタイムジェイルブレイク検出機構を開発した。
論文 参考訳(メタデータ) (2024-08-27T17:14:21Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。