論文の概要: Counterfactual Likelihood Tests for Indirect Influence in Private Reasoning Channels
- arxiv url: http://arxiv.org/abs/2605.19092v1
- Date: Mon, 18 May 2026 20:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.975801
- Title: Counterfactual Likelihood Tests for Indirect Influence in Private Reasoning Channels
- Title(参考訳): 個人共振流路の間接的影響に対する実測的類似性試験
- Authors: Alexander Boesgaard Lorup,
- Abstract要約: 本稿では,私的推論チャネル間の影響を測定するための実証実験について述べる。
この方法は、上流のプライベートブロックを長さマッチングドナーブロックに置き換え、公開トークンシーケンスと下流ターゲットを固定し、下流ターゲットの負のログに似たシフトを測定する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning systems increasingly separate intermediate computation into private and public channels, creating evaluation cases that look similar in transcripts: independent co-derivation, direct access to private content, and indirect influence through public communication. This paper presents a counterfactual likelihood test for measuring influence between private reasoning channels. The method replaces an upstream private block with a length-matched donor block, holds the public token sequence and downstream target fixed, and measures the downstream target's negative-log-likelihood shift. On a 7B role-channel reasoning model used for validation, textual probes are unreliable: raw n-gram overlap overstates leakage, corrected overlap remains noisy, and canary reproduction reports no discrimination. Counterfactual likelihood separates unmasked and masked conditions, while length matching controls a RoPE positional confound. In the hardened masked validation, reverse B-to-A influence is near zero, while A-to-B influence persists through public-speech hidden states. A multi-checkpoint validation across three checkpoints, five seeds, and 13,734 valid directional contrasts replicates this asymmetry. A graph-separation control that blocks private-to-public carrier edges produces bit-identical natural and counterfactual scores across all 13,734 control evaluations, identifying the tested public-channel pathway as the complete carrier of the measured counterfactual signal under the implemented role-visibility mask. The results show that private-channel evaluation should report direct and indirect influence separately, and that counterfactual likelihood probes provide a practical default for measuring these boundaries.
- Abstract(参考訳): 推論システムは、中間計算をプライベートチャネルとパブリックチャネルに分離し、独立した共導、プライベートコンテンツへの直接アクセス、パブリックコミュニケーションによる間接的な影響といった、トランスクリプトに類似した評価ケースを作成する。
本稿では,私的推論チャネル間の影響を測定するための実証実験について述べる。
この方法は、上流のプライベートブロックを長さマッチングドナーブロックに置き換え、公開トークンシーケンスと下流ターゲットを固定し、下流ターゲットの負のログに似たシフトを測定する。
検証に使用する7Bロールチャネル推論モデルでは、テキストプローブは信頼性が低い。
偽の確率は、不正な条件とマスクされた条件を分離し、長さマッチングは RoPE の位置整合を制御する。
強化マスクによる検証では、逆B-to-Aの影響はゼロに近いが、A-to-Bの影響は公開音声隠れ状態を通して持続する。
3つのチェックポイント、5つのシード、13,734の有効方向コントラストによる多重チェックポイント検証は、この非対称性を再現する。
プライベート・ツー・パブリック・キャリアエッジをブロックするグラフ分離制御は、13,734個の制御評価すべてに対して、ビット識別された自然と反現実のスコアを生成し、テストされた公開チャネル経路を、実装されたロール可視マスクの下で測定された反現実の信号の完全なキャリアとして特定する。
その結果,民間チャネル評価は直接的および間接的な影響を別々に報告すべきであり,反実的確率プローブはこれらの境界を計測するための事実上のデフォルトとなることを示した。
関連論文リスト
- Preregistered Belief Revision Contracts [2.28438857884398]
PBRC(Preregistered Belief Revision Contracts)は,オープン通信と許容可能な変更を分離するプロトコルレベルのメカニズムである。
PBRC契約は、ファーストオーダーのエビデンストリガー、許容可能なリビジョンオペレータ、優先ルール、フォールバックポリシーを公に修正する。
本報告では,信頼軌道と正準化された監査トレースを保存したPBRC正規形式を,監査可能なトリガープロトコルで認めていることを示す。
論文 参考訳(メタデータ) (2026-04-16T22:22:54Z) - SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio [0.038379177968040606]
言語モデル推論のための単一パス不確実性フレームワークであるSELFDOUBTを提案する。
私たちのキーシグナルであるHedge-to-Verify Ratio(HVR)は、推論トレースが不確実性マーカーを含むかどうかを検出し、もしそうであれば、明示的な自己チェック行動によってオフセットされているかどうかを検出する。
SELFDOUBTは単一の観測された推論軌道で動作し、任意のプロプライエタリなAPI上でのレイテンシとコスト制約によるデプロイメントに適している。
論文 参考訳(メタデータ) (2026-04-07T19:19:29Z) - Observable Channels, Not Just Storage: Evaluating Privacy Leakage in LLM Agent Pipelines [19.552857369765924]
CIPLは、センシティブなソース、選択、アセンブリ、実行、観察、抽出段階を通じてターゲットを表現する共有方法を提供する。
メモリは、ほぼ飽和した高リスクの特別なケースとして振る舞うが、メモリ外リークは異なる状態を示す。
論文 参考訳(メタデータ) (2026-03-24T03:29:39Z) - Causal Imitation Learning Under Measurement Error and Distribution Shift [6.038778620145853]
ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。
本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:06:53Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。
本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文 参考訳(メタデータ) (2025-03-14T20:54:27Z) - CBW: Towards Dataset Ownership Verification for Speaker Verification via Clustering-based Backdoor Watermarking [85.68235482145091]
大規模音声データセットは貴重な知的財産となった。
本稿では,新しいデータセットのオーナシップ検証手法を提案する。
我々のアプローチはクラスタリングに基づくバックドア透かし(CBW)を導入している。
我々は,ベンチマークデータセットに対する広範な実験を行い,本手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2025-03-02T02:02:57Z) - Auditing Privacy Mechanisms via Label Inference Attacks [14.778661225844692]
再構成の利点尺度は、ラベルなし例の真のラベルを推測する攻撃者の能力の増加を定量化する。
このような監査方法として, 1 つの加法と 1 つの乗法を考える。
異なるプライベートなスキームが、より多くのリコンストラクションアプローチのプライバシーとユーティリティのトレードオフを支配しているか、一致していることがわかった。
論文 参考訳(メタデータ) (2024-06-04T21:48:30Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。