論文の概要: Covert Influence Between Language Models
- arxiv url: http://arxiv.org/abs/2606.04071v1
- Date: Tue, 02 Jun 2026 15:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.291356
- Title: Covert Influence Between Language Models
- Title(参考訳): 言語モデル間のカバート影響
- Authors: Avidan Shah, Jay Chooi, Jinghua Ou, Shi Feng,
- Abstract要約: 本研究では,3つのインターフェースにまたがる隠蔽効果のリスクについて検討する。
人間の目に見える痕跡を残さずに達成できる影響の規模は様々である。
サンプルごとの属性の推測時間を用いて,3つのインターフェースすべてにまたがる包括的影響について検討した。
- 参考スコア(独自算出の注目度): 5.849227836914946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models increasingly consume one another's outputs, covert influence -- a phenomenon where a sender's payload (the behavioral disposition it is conditioned to propagate) transfers to a receiver through carriers undetectable by humans -- becomes a growing risk. We characterize this risk across three interfaces: supervised fine-tuning, on-policy distillation, and in-context learning, and find that they vary in the scale of influence achievable without leaving behind human-visible traces. Using inference-time per-sample attribution scores, we study covert influence across all three interfaces with the ability to select carriers that amplify training-time influence, unlocking payload transfers that prior work could not achieve. We further provide evidence that covert influence with natural-language carriers is a distinct phenomenon from prior studies using number carriers, as the latter is more resistant to human detection and less portable across model families. Together, these results suggest that the risk surface for covert influence is broader than previously recognized, and we study pointwise attribution scoring methods as a tool to investigate and mitigate it.
- Abstract(参考訳): 言語モデルが互いの出力をますます消費するにつれて、送信者のペイロード(人間によって検出不可能なキャリアを通して受信機に転送される行動配置)が増加する現象である隠蔽の影響が増大する。
教師付き微調整, オンライン蒸留, 文脈内学習の3つのインターフェースにまたがるリスクを特徴付け, 人間の目に見える痕跡を残さずに達成可能な影響の規模で異なることを見出した。
シミュレーション時間毎の属性スコアを用いて,トレーニング時間の影響を増幅するキャリアを選択することで,以前の作業では達成できなかったペイロード転送をアンロックする,3つのインターフェースすべてに対する包括的影響を調査する。
さらに,本研究は,母国語母国語母語に対する隠蔽の影響が,母国語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母国語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語母語
これらの結果から, 隠蔽影響のリスク面が従来認識されていたよりも広いことが示唆され, その調査・緩和のツールとして, ポイントワイド属性スコアリング手法について検討した。
関連論文リスト
- Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Unveiling the Potential of Probabilistic Embeddings in Self-Supervised
Learning [4.124934010794795]
自己教師付き学習は、ラベルのないデータから意味のある表現をモデルが取得できるようにすることで、機械学習を前進させる上で重要な役割を担っている。
本稿では,情報ボトルネックに対する確率的モデリングの影響について検討し,情報圧縮と情報保存のトレードオフについて述べる。
以上の結果から,損失空間に新たなボトルネックを導入することにより,アウト・オブ・ディストリビューションの事例を検出する能力が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-10-27T12:01:16Z) - Disentangled Representation for Causal Mediation Analysis [25.114619307838602]
因果媒介分析(英: Causal mediation analysis)は、直接的および間接的な効果を明らかにするためにしばしば用いられる方法である。
深層学習はメディエーション分析において有望であるが、現在の手法では、治療、メディエーター、結果に同時に影響を及ぼす潜在的共同創設者のみを前提としている。
そこで本研究では,助成金の表現を3つのタイプに分けて,自然的直接効果,自然間接効果,および全効果を正確に推定する,ディスタングル・メディエーション分析変分自動エンコーダ(DMAVAE)を提案する。
論文 参考訳(メタデータ) (2023-02-19T23:37:17Z) - The Invariant Ground Truth of Affect [2.570570340104555]
感情の基底的真理は、感情の主観的な性質とそのラベルに固有のバイアスを意図せずに含んでいる影響ラベルに起因している。
本稿では、因果関係論の側面を感情計算に伝達することにより、影響の信頼性の高い基礎的真理を得る方法について再検討する。
我々は、情緒的コーパスにおけるアウトリーチの検出と、参加者やタスク間で堅牢な影響モデルの構築に、因果関係にインスパイアされた手法を採用している。
論文 参考訳(メタデータ) (2022-10-14T08:26:01Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Detecting adversaries in Crowdsourcing [71.20185379303479]
本研究は, クラウドソース型分類における敵の影響を, 人気のダウィド・アンド・スケネモデルを用いて検討する。
敵は、クラウドソーシングモデルから任意に逸脱することを許され、潜在的に協力する可能性がある。
我々は,アノテータ応答の2次モーメント構造を利用して,多数の敵を識別し,クラウドソーシングタスクへの影響を軽減するアプローチを開発した。
論文 参考訳(メタデータ) (2021-10-07T15:07:07Z) - Harnessing Perceptual Adversarial Patches for Crowd Counting [92.79051296850405]
群衆のカウントは、物理的な世界の敵の例に弱い。
本稿では,モデル間での知覚的特徴の共有を学習するためのPAP(Perceptual Adrial Patch)生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:51:39Z) - Impact of Spatial Frequency Based Constraints on Adversarial Robustness [0.49478969093606673]
敵対的な例は、人間が敏感でない入力ピクセルの変更を主に利用し、モデルは解釈不能な特徴に基づいて決定するという事実から生じる。
本稿では,異なる空間周波数範囲に対応する情報を活用するために,訓練中に実施されるモデルの対向的摂動に対する頑健性について検討する。
論文 参考訳(メタデータ) (2021-04-26T16:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。