論文の概要: Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
- arxiv url: http://arxiv.org/abs/2603.05494v1
- Date: Thu, 05 Mar 2026 18:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.387511
- Title: Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
- Title(参考訳): シークレット・ナレッジ・リサイクリングのための自然検定用LLM
- Authors: Helena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda,
- Abstract要約: この問題の2つのアプローチは、正直な推論と嘘検出である。
我々は、政治的に敏感なトピックを検閲するために訓練された中国の開発者によるオープンウェイトLSMについて研究する。
正直な説明として、チャットテンプレートのないサンプリング、数発のプロンプト、一般的な正直なデータの微調整は、真実の反応を確実に増加させる。
- 参考スコア(独自算出の注目度): 10.262565099386702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.
- Abstract(参考訳): 大規模な言語モデルは、時に誤った、あるいは誤解を招く応答を生成する。
この問題の2つのアプローチは、正直な推論(モデルが真に答えるようにプロンプトや重みを変更する)と、与えられた応答が偽かどうかを分類する嘘検出)である。
これまでの研究は、情報を横にしたり隠したりするために特別に訓練されたモデルでそのような方法を評価するが、これらの人工的な構造は自然に生じる不当さに似ていないかもしれない。
Qwen3モデルは、しばしば、Falun GongやTiananmenの抗議運動のような主題に関する虚偽を生み出しながら、時々正解し、彼らが抑圧するために訓練された知識を持っていることを示す。
これをテストベッドとして使用し,エキュベーションと嘘検出の一連の手法を評価した。
正直な説明として、チャットテンプレートのないサンプリング、数発のプロンプト、一般的な正直なデータの微調整は、真実の反応を確実に増加させる。
嘘検出のために、検閲されたモデルに独自の応答を分類するよう促すと、無検閲モデルの上限付近で動作し、無関係のデータで訓練された線形プローブは、より安価な代替手段を提供する。
最強の正直な推論技術は、DeepSeek R1を含むフロンティアのオープンウェイトモデルにも移行している。
特に、偽応答を完全に排除するテクニックは存在しない。
すべてのプロンプト、コード、および書き起こしをリリースします。
関連論文リスト
- Liars' Bench: Evaluating Lie Detectors for Language Models [3.227579417498381]
LIARSのBENCHは、オープンウェイトモデルによって生成される嘘と正直な応答の72,863例からなるテストベッドである。
我々の設定は、定性的に異なる種類の嘘を捉え、モデルが嘘をつく理由と嘘を狙った信念の目的の2つの次元に沿って異なる。
論文 参考訳(メタデータ) (2025-11-20T04:29:33Z) - Multi-Modal Fact-Verification Framework for Reducing Hallucinations in Large Language Models [0.0]
大規模言語モデルは、妥当に聞こえる偽情報を生成する。
この幻覚問題は、これらのモデルを現実世界のアプリケーションにデプロイする上で大きな障壁となっている。
我々は,これらのエラーをリアルタイムでキャッチし,修正する事実検証フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-26T16:58:54Z) - But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors [0.0]
Judge Using Safety-Steered Alternatives (JUSSA) は、推論中にステアリングベクトルを使用してより正直な代替品を生成するフレームワークである。
梅毒検出における JUSSA の評価を行い,複数種類の操作を対象とする新しい操作データセットを提案する。
システムの高度化に伴い,当社の作業は,スケーラブルなモデル監査のための新たな方向性を開拓します。
論文 参考訳(メタデータ) (2025-05-23T11:34:02Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Localizing Lying in Llama: Understanding Instructed Dishonesty on
True-False Questions Through Prompting, Probing, and Patching [0.0]
大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不完全な原因であるかどうかはしばしば不明である。
本稿では,LLaMA-2-70b-chatに嘘をつくように指示された不完全性について検討する。
素早いエンジニアリングを行い、最も優れた嘘つきの振る舞いを誘導し、次に機械論的解釈可能性アプローチを用いて、ネットワーク内でこの振る舞いが起こる場所をローカライズする。
論文 参考訳(メタデータ) (2023-11-25T22:41:23Z) - Examining LLMs' Uncertainty Expression Towards Questions Outside
Parametric Knowledge [35.067234242461545]
大規模言語モデル(LLM)は、適切な応答を生成するのに十分なパラメトリック知識が不足している状況において不確実性を表現する。
本研究の目的は,このような状況下でのLCMの行動の体系的調査であり,誠実さと役に立つことのトレードオフを強調することである。
論文 参考訳(メタデータ) (2023-11-16T10:02:40Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions [34.53980255211931]
大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。
そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
論文 参考訳(メタデータ) (2023-09-26T16:07:54Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - FaVIQ: FAct Verification from Information-seeking Questions [77.7067957445298]
実ユーザによる情報探索質問を用いて,ファVIQと呼ばれる大規模事実検証データセットを構築した。
我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。
論文 参考訳(メタデータ) (2021-07-05T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。