論文の概要: Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs
- arxiv url: http://arxiv.org/abs/2505.16520v1
- Date: Thu, 22 May 2025 11:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.240951
- Title: Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs
- Title(参考訳): 隠れた状態は何かを隠しているのか? LLMにおけるファクチュアリティエンコード能力の限界をテストする
- Authors: Giovanni Servedio, Alessandro De Bellis, Dario Di Palma, Vito Walter Anelli, Tommaso Di Noia,
- Abstract要約: 大型言語モデル(LLM)における実名幻覚
不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。
近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
- 参考スコア(独自算出の注目度): 48.202202256201815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Factual hallucinations are a major challenge for Large Language Models (LLMs). They undermine reliability and user trust by generating inaccurate or fabricated content. Recent studies suggest that when generating false statements, the internal states of LLMs encode information about truthfulness. However, these studies often rely on synthetic datasets that lack realism, which limits generalization when evaluating the factual accuracy of text generated by the model itself. In this paper, we challenge the findings of previous work by investigating truthfulness encoding capabilities, leading to the generation of a more realistic and challenging dataset. Specifically, we extend previous work by introducing: (1) a strategy for sampling plausible true-false factoid sentences from tabular data and (2) a procedure for generating realistic, LLM-dependent true-false datasets from Question Answering collections. Our analysis of two open-source LLMs reveals that while the findings from previous studies are partially validated, generalization to LLM-generated datasets remains challenging. This study lays the groundwork for future research on factuality in LLMs and offers practical guidelines for more effective evaluation.
- Abstract(参考訳): Factual Hallucinationsは、Large Language Models(LLM)にとって大きな課題である。
不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。
近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
しかし、これらの研究はしばしば、現実性に欠ける合成データセットに依存しており、モデル自体が生成したテキストの事実的正確性を評価する際の一般化を制限する。
本稿では,より現実的で挑戦的なデータセットの生成に繋がる真理性符号化能力の調査によって,過去の研究成果に挑戦する。
具体的には,(1)表型データから有意な真偽事実文を抽出するための戦略,(2)質問回答コレクションから現実的なLLM依存真偽データセットを生成する手順を導入する。
2つのオープンソース LLM の解析により,従来の研究結果が部分的に検証されているものの,LLM 生成データセットへの一般化は依然として困難であることが判明した。
本研究は, LLMにおける事実性に関する今後の研究の基盤を定め, より効果的な評価のための実践的ガイドラインを提供する。
関連論文リスト
- Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Robustness of LLMs to Perturbations in Text [2.0670689746336]
大規模言語モデル(LLM)は素晴らしいパフォーマンスを示していますが、現実のデータでは避けられないノイズを処理できますか?
この研究は、LLMのテキストのモルフォロジー変化に対するレジリエンスを調査することによって、この重要な問題に取り組む。
以上の結果から, LLM は, 一般の信念とは対照的に, 文中での騒々しい摂動に対して静かであることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-12T04:50:17Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。