Fugu-MT 論文翻訳(概要): The Internal State of an LLM Knows When its Lying

論文の概要: The Internal State of an LLM Knows When its Lying

arxiv url: http://arxiv.org/abs/2304.13734v1
Date: Wed, 26 Apr 2023 02:49:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 15:40:22.756977
Title: The Internal State of an LLM Knows When its Lying
Title（参考訳）: LLMの内部状態がいつリビングするか
Authors: Amos Azaria, Tom Mitchell
Abstract要約: LLM生成文の真偽を検出するための,単純かつ効果的な手法を提案する。 LLMのアクティベーション値に基づいて、どの文が真か偽かを検出するように、分類器が訓練される。実験の結果,文の正確性を検出する手法は,数発のプロンプト法よりも優れていた。
参考スコア（独自算出の注目度）: 8.442084903594528
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While Large Language Models (LLMs) have shown exceptional performance in various tasks, their (arguably) most prominent drawback is generating inaccurate or false information with a confident tone. In this paper, we hypothesize that the LLM's internal state can be used to reveal the truthfulness of a statement. Therefore, we introduce a simple yet effective method to detect the truthfulness of LLM-generated statements, which utilizes the LLM's hidden layer activations to determine the veracity of statements. To train and evaluate our method, we compose a dataset of true and false statements in six different topics. A classifier is trained to detect which statement is true or false based on an LLM's activation values. Specifically, the classifier receives as input the activation values from the LLM for each of the statements in the dataset. Our experiments demonstrate that our method for detecting statement veracity significantly outperforms even few-shot prompting methods, highlighting its potential to enhance the reliability of LLM-generated content and its practical applicability in real-world scenarios.
Abstract（参考訳）: 大きな言語モデル(LLM)は、様々なタスクにおいて例外的なパフォーマンスを示しているが、最も顕著な欠点は、自信のあるトーンで不正確または偽の情報を生成することである。本稿では, LLMの内部状態が文の真偽を明らかにするために利用できると仮定する。そこで,本研究では,LCMが生成するステートメントの真偽を簡易かつ効果的に検出する手法を提案し,LCMの隠蔽層アクティベーションを用いて文の正確性を決定する。提案手法を訓練し,評価するために,6つのトピックで真文と偽文のデータセットを構成する。 LLMのアクティベーション値に基づいて、どの文が真か偽かを検出するように、分類器が訓練される。具体的には、分類器はデータセットの各文に対してllmからアクティベーション値を入力として受信する。提案手法は, LLM生成コンテンツの信頼性向上と実世界のシナリオへの適用性向上に寄与し, 数発のプロンプト法よりも格段に優れていることを示す。

関連論文リスト

DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文参考訳（メタデータ） (2025-05-15T06:53:37Z)
Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-02T16:38:21Z)
Truth is Universal: Robust Detection of Lies in LLMs [18.13311575803723]
大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
論文参考訳（メタデータ） (2024-07-03T13:01:54Z)
A Probabilistic Framework for LLM Hallucination Detection via Belief Tree Propagation [72.93327642336078]
本稿では,幻覚検出のための確率的フレームワークであるBelief Tree Propagation (BTProp)を提案する。 BTPropは、親ステートメントを子ステートメントに分解することで、論理的に関連するステートメントの信念ツリーを導入する。複数の幻覚検出ベンチマークにおいて,AUROCとAUC-PRにより評価された基準線を3%-9%改善する。
論文参考訳（メタデータ） (2024-06-11T05:21:37Z)
CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文参考訳（メタデータ） (2024-06-05T11:35:44Z)
Potential and Limitations of LLMs in Capturing Structured Semantics: A Case Study on SRL [78.80673954827773]
大きな言語モデル(LLM)は、言語理解を高め、解釈可能性を改善し、バイアスを減らすために構造化セマンティクスをキャプチャする上で重要な役割を果たす。セマンティック・ロール・ラベルリング(SRL)を,構造化意味論を抽出するLLMの能力を探るための基本課題として用いることを提案する。 LLMは実際にセマンティック構造をキャプチャすることができ、スケールアップは常にポテンシャルを反映するわけではない。エラーのかなりの重複は、LLMと訓練されていない人間の両方によって行われ、全てのエラーの約30%を占めることに私たちは驚いています。
論文参考訳（メタデータ） (2024-05-10T11:44:05Z)
$\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文参考訳（メタデータ） (2024-03-27T08:08:00Z)
See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新既存の作業はこの特性を無視し、編集には一般化が欠けている。実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文参考訳（メタデータ） (2024-01-15T09:09:14Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか? LLMの事実知識を評価する統計的手法であるKaRRを提案する。この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文参考訳（メタデータ） (2023-05-17T18:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。