論文の概要: LLM Self-Recognition: Steering and Retrieving Activation Signatures
- arxiv url: http://arxiv.org/abs/2606.06315v1
- Date: Thu, 04 Jun 2026 15:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.92193
- Title: LLM Self-Recognition: Steering and Retrieving Activation Signatures
- Title(参考訳): LLM自己認識: ステアリングとアクティベーションシグナチャの検索
- Authors: Thibaud Ardoin, Jonas Schäfer, Gerhard Wunder,
- Abstract要約: 解釈可能性の最近の進歩は、大きな言語モデルがその出力の自己認識を可能にする信号を暗黙的に符号化していることを示唆している。
この能力は低エントロピーシナリオにおいても信頼性があり、ターゲットの介入によって増幅可能であることを実証する。
このアプローチは、外部に信号を埋め込むのではなく、モデルの自然な表現構造を利用して、従来の検出器に代わる実用的な代替手段を提供する。
- 参考スコア(独自算出の注目度): 2.992414059774663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in interpretability suggest that large language models (LLMs) implicitly encode signals in their generated text that enable self-recognition of their outputs. We demonstrate that this capability is reliable, even in low-entropy scenarios, and that it can be amplified through targeted intervention. By steering the internal residual stream during generation with a random sparse vector, we create a detectable fingerprint that enables attribution of a given text to a specific LLM. This signal is recoverable from the activations of an LLM used as a detector, achieving over 98% accuracy across multiple detection settings while preserving the quality of generated text. As AI-generated content proliferates, this approach offers a practical alternative to traditional detectors by leveraging the model's natural representation structure for attribution rather than embedding a signal externally. Our contributions include: (i) establishing reliable self-recognition capabilities in LLMs, (ii) a simple steering mechanism enabling multi-LLM identification with no quality degradation, (iii) demonstrating that activation spaces contain exploitable structure for encoding signals without semantic interference.
- Abstract(参考訳): 解釈可能性の最近の進歩は、大きな言語モデル(LLM)が生成したテキストに暗黙的に信号をエンコードし、出力の自己認識を可能にすることを示唆している。
この能力は低エントロピーシナリオにおいても信頼性があり、ターゲットの介入によって増幅可能であることを実証する。
ランダムなスパースベクトルを用いて生成中の内部残差ストリームをステアリングすることにより、所定のテキストを特定のLLMに帰属させることができる検出可能な指紋を生成する。
この信号は検出器として使用されるLDMの活性化から回復可能であり、生成されたテキストの品質を維持しながら、複数の検出設定で98%以上の精度を達成できる。
AI生成コンテンツが増殖するにつれて、このアプローチは、外部に信号を埋め込むのではなく、モデルの自然な表現構造を活用して、従来の検出器に代わる実践的な代替手段を提供する。
コントリビューションには以下のものがある。
一 LLMにおける信頼性の高い自己認識能力の確立
二 品質劣化のないマルチLLM識別が可能な簡易なステアリング機構
三 アクティベーション空間が意味的干渉のない信号を符号化するための利用可能な構造を含むことを示すこと。
関連論文リスト
- CASS-RTL: Correctness-Aware Subspace Steering for RTL Generation with LLMs [0.0]
本研究は,LCMの正当性を考慮したコンポーネントの発見と活用を目的とした,一級フレームワークCASS-RTLを提案する。
We observed 10%-20% improve in pass@1/5/10 accuracy on VerilogEval and 5% improve on CVDP。
論文 参考訳(メタデータ) (2026-06-04T04:02:51Z) - Projectional Decoding: Towards Semantic-Aware LLM Generation [7.143305283235514]
大規模言語モデル(LLM)は、多くのソフトウェア工学(SE)タスクでソフトウェアアーチファクトを生成するためにますます使われています。
既存の制約付き復号法は、構文的正しさを強制し、場合によっては特定の意味規則を強制することができる。
本稿では,ドメインのセマンティクスを直接生成プロセスに統合する新しい概念的フレームワークであるプロジェクショナルデコーディングを提案する。
論文 参考訳(メタデータ) (2026-05-28T15:05:53Z) - On the Ability of LLMs to Handle Character-Level Perturbations: How Well and How? [22.185338324021117]
本研究は, 文字レベルの頻繁な摂動に対する現代LLMの弾力性について検討する。
UCC-Injは、見えないUnicode制御文字をテキストに挿入し、LCMの誤用を防ぐ実用的な方法である。
トークン化を断片化し、信号と雑音の比を著しく下げる強い難読化にもかかわらず、多くのLLMは依然として顕著な性能を維持している。
論文 参考訳(メタデータ) (2025-10-16T06:59:58Z) - Self-Disguise Attack: Induce the LLM to disguise itself for AIGT detection evasion [16.94434185181644]
SDA(Self-Disguise Attack)は、大規模言語モデルがその出力を積極的に偽装できる新しいアプローチである。
SDA は,3 種類の LLM が生成するテキスト間での各種 AIGT 検出器の平均検出精度を効果的に低減することを示す。
論文 参考訳(メタデータ) (2025-08-20T04:17:03Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Steered Generation via Gradient Descent on Sparse Features [1.534667887016089]
クエリ埋め込みのスパース表現を学習するために、スパースオートエンコーダを訓練することにより、大言語モデル(LLM)の内部構造を変更する。
このスパース表現の操作は、出力を異なるスタイル的および認知的目標に向けて効果的に変換することを実証する。
論文 参考訳(メタデータ) (2025-02-25T21:06:14Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。