Fugu-MT 論文翻訳(概要): Exploring the generalization of LLM truth directions on conversational formats

論文の概要: Exploring the generalization of LLM truth directions on conversational formats

arxiv url: http://arxiv.org/abs/2505.09807v1
Date: Wed, 14 May 2025 21:21:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.110734
Title: Exploring the generalization of LLM truth directions on conversational formats
Title（参考訳）: 会話形式に基づくLLM真理方向の一般化の探索
Authors: Timour Ichmoukhamedov, David Martens,
Abstract要約: モデル内の1つの隠れ状態でトレーニングされた線形プローブは、既に様々なトピックにわたって一般化されていることを示す。嘘で終わる短い会話の間には良い一般化があるが、入力プロンプトにその嘘が早く現れるより長いフォーマットへの一般化は不十分である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several recent works argue that LLMs have a universal truth direction where true and false statements are linearly separable in the activation space of the model. It has been demonstrated that linear probes trained on a single hidden state of the model already generalize across a range of topics and might even be used for lie detection in LLM conversations. In this work we explore how this truth direction generalizes between various conversational formats. We find good generalization between short conversations that end on a lie, but poor generalization to longer formats where the lie appears earlier in the input prompt. We propose a solution that significantly improves this type of generalization by adding a fixed key phrase at the end of each conversation. Our results highlight the challenges towards reliable LLM lie detectors that generalize to new settings.
Abstract（参考訳）: いくつかの最近の研究は、LLMはモデルの活性化空間において真と偽の文が線形に分離可能な普遍真理方向を持つと主張している。モデル内の1つの隠れ状態でトレーニングされた線形プローブは、既に様々なトピックにまたがって一般化されており、LLM会話における嘘検出にも使われる可能性があることが示されている。本研究では、この真理の方向性が、様々な会話形式の間でどのように一般化されるのかを考察する。嘘で終わる短い会話の間には良い一般化があるが、入力プロンプトにその嘘が先に現れる長文形式への一般化は不十分である。本稿では,各会話の最後に固定キー句を追加することで,このタイプの一般化を著しく改善する手法を提案する。本結果は,新しい環境に一般化する信頼性の高いLCM嘘検出装置の課題を浮き彫りにするものである。

関連論文リスト

Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文参考訳（メタデータ） (2026-02-07T19:39:28Z)
Probing the Geometry of Truth: Consistency and Generalization of Truth Directions in LLMs Across Logical Transformations and Question Answering Tasks [31.379237532476875]
我々は,大規模言語モデル (LLM) が真理性を「真理方向」と呼ぶ線形特徴としてエンコードするかどうかを考察する。以上の結果から,全てのLLMが一貫した真理方向を示すわけではなく,より有能なモデルでより強い表現が観察されることがわかった。宣言的原子文に基づいて訓練された真理性プローブは、論理変換、質問応答タスク、文脈内学習、外部知識ソースに効果的に一般化できることを示す。
論文参考訳（メタデータ） (2025-06-01T03:55:53Z)
Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs [48.202202256201815]
大型言語モデル(LLM)における実名幻覚不正確なコンテンツや偽造コンテンツを生成することによって、信頼性とユーザ信頼を損なう。近年の研究では、偽文を生成する際、LLMの内部状態が真偽に関する情報を符号化していることが示唆されている。
論文参考訳（メタデータ） (2025-05-22T11:00:53Z)
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations [46.351064535592336]
大規模言語モデル(LLM)は、事実の不正確さやバイアス、推論失敗など、しばしばエラーを発生させる。近年の研究では、LLMの内部状態が出力の真偽に関する情報を符号化していることが示されている。 LLMの内部表現は、これまで認識されていた以上の真理性に関する情報を符号化している。
論文参考訳（メタデータ） (2024-10-03T17:31:31Z)
Truth is Universal: Robust Detection of Lies in LLMs [18.13311575803723]
大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
論文参考訳（メタデータ） (2024-07-03T13:01:54Z)
Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。 LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文参考訳（メタデータ） (2024-06-22T03:32:09Z)
Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression [19.69104070561701]
大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多い。真性最適化のための学習可能なインターベンション手法であるLITOを提案する。複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。
論文参考訳（メタデータ） (2024-05-01T03:50:09Z)
The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文参考訳（メタデータ） (2023-10-10T17:54:39Z)
Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。 Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文参考訳（メタデータ） (2023-10-08T14:26:55Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking Unrelated Questions [34.53980255211931]
大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
論文参考訳（メタデータ） (2023-09-26T16:07:54Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。