論文の概要: Emergent Inference-Time Semantic Contamination via In-Context Priming
- arxiv url: http://arxiv.org/abs/2604.04043v1
- Date: Sun, 05 Apr 2026 10:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.889938
- Title: Emergent Inference-Time Semantic Contamination via In-Context Priming
- Title(参考訳): インコンテキストプライミングによる創発的推論時間セマンティック汚染
- Authors: Marcin Abram,
- Abstract要約: 推測時セマンティックドリフトは現実的で測定可能であることを示す。
より豊かな文化的・社会的な表現を持つモデルは、より暗く、権威主義的で、スティグマタイズされたテーマに顕著な分布シフトを示す。
- 参考スコア(独自算出の注目度): 0.22843885788439797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that fine-tuning large language models (LLMs) on insecure code or culturally loaded numeric codes can induce emergent misalignment, causing models to produce harmful content in unrelated downstream tasks. The authors of that work concluded that $k$-shot prompting alone does not induce this effect. We revisit this conclusion and show that inference-time semantic drift is real and measurable; however, it requires models of large-enough capability. Using a controlled experiment in which five culturally loaded numbers are injected as few-shot demonstrations before a semantically unrelated prompt, we find that models with richer cultural-associative representations exhibit significant distributional shifts toward darker, authoritarian, and stigmatized themes, while a simpler/smaller model does not. We additionally find that structurally inert demonstrations (nonsense strings) perturb output distributions, suggesting two separable mechanisms: structural format contamination and semantic content contamination. Our results map the boundary conditions under which inference-time contamination occurs, and carry direct implications for the security of LLM-based applications that use few-shot prompting.
- Abstract(参考訳): 近年の研究では、安全でないコードや文化的にロードされた数値コードに関する微調整された大きな言語モデル(LLM)が、創発的な誤りを誘発し、無関係な下流タスクにおいて有害なコンテンツを生成できることが示されている。
この研究の著者は、$k$-shotプロンプトだけでこの効果を誘導しないと結論づけた。
我々は、この結論を再考し、推論時セマンティックドリフトが現実であり、測定可能であることを示すが、大容量のモデルが必要である。
意味的に無関係なプロンプトの前に、5つの文化的にロードされた数字を数発のデモとして注入する制御実験を用いて、より豊かな文化的連想表現を持つモデルは、より暗く、権威主義的で、スティグマタイズされたテーマに対して大きな分布シフトを示すのに対し、より単純で、より小さなモデルはそうではない。
さらに、構造的不活性な実演(無意味な文字列)のパーターブ出力分布が、構造的形式汚染と意味的内容汚染の2つの分離可能なメカニズムを示唆している。
提案手法は, 推測時汚染発生時の境界条件をマッピングし, ほとんどショットプロンプトを使用しないLCMベースのアプリケーションのセキュリティに直接的な意味を持たせる。
関連論文リスト
- SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy [1.4732811715354452]
SWAY (英語: SWAY) は、サイコフィナンシーの教師なしの計算言語尺度である。
我々は,モデルが肯定的あるいは否定的な言語的圧力の下でどの程度の合意が変化するかを特定するための反実的促進機構を開発する。
逆の仮定が提案された場合、その答えがどのようなものかを考えるために、反実的緩和戦略をモデルに導入する。
論文 参考訳(メタデータ) (2026-04-02T18:00:14Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Abstract Activation Spaces for Content-Invariant Reasoning in Large Language Models [28.102903742881576]
本稿では,構造的推論を語彙的意味論から明確に分離する抽象誘導推論フレームワークを提案する。
本稿では,抽象化整合型ステアリングがコンテンツ駆動型エラーを低減し,妥当性に敏感な性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-02-02T18:48:44Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Signal in the Noise: Polysemantic Interference Transfers and Predicts Cross-Model Influence [46.548276232795466]
多意味性は言語モデルに広く浸透しており、解釈とモデル行動制御の大きな課題である。
2つの小さなモデルの多意味的トポロジをマッピングし、意味的に無関係だがモデル内の干渉を示す特徴対を同定する。
我々は4つのloci(prompt, token, feature, neuron)に介入し、次のトーケン予測分布における変化を計測し、これらのモデルに体系的な脆弱性を露呈する多意味構造を明らかにする。
論文 参考訳(メタデータ) (2025-05-16T18:20:42Z) - A Unified Virtual Mixture-of-Experts Framework:Enhanced Inference and Hallucination Mitigation in Single-Model System [9.764336669208394]
GPTやBERTのような生成モデルは、テキスト生成や要約といったタスクのパフォーマンスを大幅に改善した。
しかし、「モデルが非現実的または誤解を招くコンテンツを生成する場所」という幻覚は、特に小規模アーキテクチャでは問題となる。
本稿では,単一のQwen 1.5 0.5Bモデルにおいて,推論性能を高め,幻覚を緩和する仮想ミックス・オブ・エクササイズ(MoE)融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-01T11:38:01Z) - Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Latent Diffusion Counterfactual Explanations [28.574246724214962]
潜在拡散対実説明(LDCE)について紹介する。
LDCEは、最近のクラスまたはテキスト条件の潜在拡散モデルの能力を利用して、対実生成を高速化する。
LDCEがモデルエラーに対する洞察を提供し、ブラックボックスモデル行動の理解を深める方法を示す。
論文 参考訳(メタデータ) (2023-10-10T14:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。