Fugu-MT 論文翻訳(概要): Examining LLMs' Uncertainty Expression Towards Questions Outside Parametric Knowledge

論文の概要: Examining LLMs' Uncertainty Expression Towards Questions Outside Parametric Knowledge

arxiv url: http://arxiv.org/abs/2311.09731v2
Date: Fri, 16 Feb 2024 17:30:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 19:57:25.645900
Title: Examining LLMs' Uncertainty Expression Towards Questions Outside Parametric Knowledge
Title（参考訳）: LLMの不確かさ表現の検討 : パラメトリック知識以外での疑問
Authors: Genglin Liu, Xingyao Wang, Lifan Yuan, Yangyi Chen, Hao Peng
Abstract要約: 大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
参考スコア（独自算出の注目度）: 35.067234242461545
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Can large language models (LLMs) express their uncertainty in situations where they lack sufficient parametric knowledge to generate reasonable responses? This work aims to systematically investigate LLMs' behaviors in such situations, emphasizing the trade-off between honesty and helpfulness. To tackle the challenge of precisely determining LLMs' knowledge gaps, we diagnostically create unanswerable questions containing non-existent concepts or false premises, ensuring that they are outside the LLMs' vast training data. By compiling a benchmark, UnknownBench, which consists of both unanswerable and answerable questions, we quantitatively evaluate the LLMs' performance in maintaining honesty while being helpful. Using a model-agnostic unified confidence elicitation approach, we observe that most LLMs fail to consistently refuse or express uncertainty towards questions outside their parametric knowledge, although instruction fine-tuning and alignment techniques can provide marginal enhancements. Moreover, LLMs' uncertainty expression does not always stay consistent with the perceived confidence of their textual outputs.
Abstract（参考訳）: 大きな言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において、不確実性を表現できるだろうか? 本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。 LLMの知識ギャップを正確に決定する課題に対処するため、既存の概念や偽の前提を含む疑問を診断的に生成し、LLMの膨大なトレーニングデータの外にあることを保証する。解答不可能な質問と解答可能な質問の両方からなるベンチマークであるUnknownBenchをコンパイルすることにより、LCMのパフォーマンスを定量的に評価し、誠実さを維持しながら有効であることを示す。モデルに依存しない統一的信頼抽出手法を用いることで、ほとんどのLCMはパラメトリック知識以外の問題に対して一貫して拒否あるいは不確実性を表現できないが、命令の微調整とアライメント技術は限界的な改善をもたらす。さらに、LLMの不確実性表現は、テキスト出力の認識された信頼と常に一致しない。

関連論文リスト

ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。 LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文参考訳（メタデータ） (2025-07-03T19:19:44Z)
Representations of Fact, Fiction and Forecast in Large Language Models: Epistemics and Attitudes [15.754908203866284]
合理的な話者は、自分が知っていること、知らないことを知っていなければならない。現在の大規模言語モデルでは、不確実な実環境における事実の評価と信頼性に基づいて、対応する発話を生成することが依然として課題である。
論文参考訳（メタデータ） (2025-06-02T10:19:42Z)
Line of Duty: Evaluating LLM Self-Knowledge via Consistency in Feasibility Boundaries [0.0]
本研究は,新たな手法を用いて,異なるタイプのLDM自己知識に関する本質的な洞察を得ることを目的とする。 GPT-4oやMistral Largeのようなフロンティアモデルでさえ、その80%以上の能力を確信していないことが分かりました。
論文参考訳（メタデータ） (2025-03-14T10:07:07Z)
UAlign: Leveraging Uncertainty Estimations for Factuality Alignment on Large Language Models [41.67393607081513]
大きな言語モデル(LLM)は、しばしば、彼らが持っている事実の知識を正確に表現するのに苦労する。知識境界を表現するために不確実性推定を利用するUAlignフレームワークを提案する。提案したUAlign は LLM の能力を大幅に向上させ,既知の疑問に自信を持って答えることができることを示す。
論文参考訳（メタデータ） (2024-12-16T14:14:27Z)
Rethinking LLM Uncertainty: A Multi-Agent Approach to Estimating Black-Box Model Uncertainty [47.95943057892318]
ブラックボックスLSMの不確実性の定量化は、信頼性の高い応答とスケーラブルな監視に不可欠である。本研究では,不確実性推定にマルチエージェント相互作用を用いた新しい理論的基礎手法であるDiverseAgentEntropyを紹介する。
論文参考訳（メタデータ） (2024-12-12T18:52:40Z)
A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions [9.045698110081686]
大規模言語モデル (LLMs) は、信頼性を高く表現した、妥当で、事実的に正しくない応答を生成する。従来の研究では、LLMが生み出す幻覚やその他の非現実的な反応は、関連するプロンプトに対するLLMの不確実性を調べることによって検出できることが示されている。本調査は, LLMの健全な特徴と強度, 弱点を識別し, 既存の不確実性定量化手法を幅広く検討することを目的としている。
論文参考訳（メタデータ） (2024-12-07T06:56:01Z)
MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty [10.154013836043816]
我々は,世界知識,数学的推論,コモンセンス推論タスクからなるMulti-Answer Question Answering データセット MAQA を提案する。その結果,データ不確実性の下でも,エントロピーと一貫性に基づく手法がモデルの不確実性をよく推定できることが示唆された。我々は、我々の観察が、現実的な環境での不確実性定量化に関する今後の研究の道を開くと信じている。
論文参考訳（メタデータ） (2024-08-13T11:17:31Z)
To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文参考訳（メタデータ） (2024-07-24T09:48:48Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文参考訳（メタデータ） (2024-04-16T23:56:38Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文参考訳（メタデータ） (2023-11-14T13:24:19Z)
Quantifying Uncertainty in Natural Language Explanations of Large Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文参考訳（メタデータ） (2023-11-06T21:14:40Z)
Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism [0.0]
大規模言語モデル(LLM)は印象的な言語理解と生成能力を示している。これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。本稿では,LLMに対して,誤りを避けるために,難解な質問への回答を拒否するように指示する拒絶機構を提案する。
論文参考訳（メタデータ） (2023-11-02T07:20:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。