論文の概要: Still No Lie Detector for Language Models: Probing Empirical and
Conceptual Roadblocks
- arxiv url: http://arxiv.org/abs/2307.00175v1
- Date: Fri, 30 Jun 2023 23:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:31:54.643928
- Title: Still No Lie Detector for Language Models: Probing Empirical and
Conceptual Roadblocks
- Title(参考訳): 言語モデルのためのまだ嘘検出器がない:経験的および概念的ブロックの探索
- Authors: B.A. Levinstein and Daniel A. Herrmann
- Abstract要約: 大型言語モデル(LLM)が信念を持っているかどうか、そしてそれらがそうであるかどうか、どのようにそれらを測定するべきか、という疑問を考察する。
Azaria and Mitchell (2023) と Burns et al. (2022) の2つの既存アプローチを評価した。
我々は, LLM が信念を持っているとしても, 概念上の理由からこれらの手法が成功する可能性は低いと論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the questions of whether or not large language models (LLMs) have
beliefs, and, if they do, how we might measure them. First, we evaluate two
existing approaches, one due to Azaria and Mitchell (2023) and the other to
Burns et al. (2022). We provide empirical results that show that these methods
fail to generalize in very basic ways. We then argue that, even if LLMs have
beliefs, these methods are unlikely to be successful for conceptual reasons.
Thus, there is still no lie-detector for LLMs. After describing our empirical
results we take a step back and consider whether or not we should expect LLMs
to have something like beliefs in the first place. We consider some recent
arguments aiming to show that LLMs cannot have beliefs. We show that these
arguments are misguided. We provide a more productive framing of questions
surrounding the status of beliefs in LLMs, and highlight the empirical nature
of the problem. We conclude by suggesting some concrete paths for future work.
- Abstract(参考訳): 大型言語モデル(LLM)が信念を持っているかどうか、そしてそれらがそうであるかどうか、どのようにそれらを測定するべきか、という疑問を考察する。
まず, azaria と mitchell (2023) によるアプローチと burns et al. (2022) によるアプローチの評価を行った。
これらの手法が極めて基本的な方法で一般化できないことを示す実験結果を提供する。
そして, LLM が信念を持っているとしても, 概念的理由からこれらの手法が成功する可能性は低いと論じる。
したがって、LLMに対する嘘検出はいまだに存在しない。
経験的な結果について説明した後、一歩後退して、LLMがそもそも信念のようなものを持つべきかどうかを検討します。
LLMが信念を持てないことを示すための最近の議論について考察する。
これらの議論は誤解されている。
我々は, LLMにおける信念の状況に関する質問のより生産的な枠組みを提供し, 問題の実証的な性質を強調する。
我々は、将来の仕事のための具体的な道を提案することで締めくくります。
関連論文リスト
- A Comprehensive Evaluation on Event Reasoning of Large Language Models [50.117736215593894]
LLMが、様々な関係や推論パラダイムに基づいたイベント推論をいかにうまく達成するかは、いまだに不明である。
本稿ではEVent推論のEValuationのための新しいベンチマークEV2を紹介する。
LLMにはイベント推論を実現する能力があるが、その性能は十分ではない。
論文 参考訳(メタデータ) (2024-04-26T16:28:34Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs'
Overconfidence Helps Retrieval Augmentation [72.11942617502956]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Do LLMs Know about Hallucination? An Empirical Investigation of LLM's
Hidden States [19.343629282494774]
大きな言語モデル(LLM)は、現実ではない答えを補うことができ、幻覚として知られている。
本研究の目的は, LLM が幻覚をどの程度認識しているか, どのように, どの程度の程度で確認することである。
論文 参考訳(メタデータ) (2024-02-15T06:14:55Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Why LLMs Hallucinate, and How to Get (Evidential) Closure: Perceptual,
Intensional, and Extensional Learning for Faithful Natural Language
Generation [0.0]
LLMは、その出力がそれらが証拠を持つ主張と同義であることに制約されないため、幻覚的であることを示す。
次に, LLM を制約して, 明らかな閉包を満たす出力を生成する方法を示す。
論文 参考訳(メタデータ) (2023-10-23T20:35:52Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Causal Parrots: Large Language Models May Talk Causality But Are Not
Causal [24.025116931689606]
大規模言語モデル(LLM)が因果関係にはならないことを明確にし、なぜそうでないと感じるのかを理由づける。
LLMが因果推論に成功している場合には,それぞれのメタSCMが基礎となると推測した。
我々の仮説が正しければ、LLMはデータに埋め込まれた因果的知識を単に引用するオウムのように見える。
論文 参考訳(メタデータ) (2023-08-24T20:23:13Z) - Mind your Language (Model): Fact-Checking LLMs and their Role in NLP
Research and Practice [91.20332726935992]
本稿では, LLM の定義に寄与し, それらの機能に関する仮定をいくつか説明し, それらに対する既存の証拠を概説する。
我々は今後の研究の方向性とフレーミングについて提案する。
論文 参考訳(メタデータ) (2023-08-14T13:00:53Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。