Fugu-MT 論文翻訳(概要): Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information

論文の概要: Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information

arxiv url: http://arxiv.org/abs/2602.21496v1
Date: Wed, 25 Feb 2026 02:09:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.670158
Title: Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information
Title（参考訳）: 拒絶を超えて:意味的感性情報に対するエージェント的自己補正の限界を探る
Authors: Umid Suleymanov, Zaur Rajabov, Emil Mirzazada, Murat Kantarcioglu,
Abstract要約: SemSIEdit(セムSIEdit)は、エージェント的「編集者」が、物語の流れを保存するために、センシティブなスパンを反復的に批評し書き直す、推論時フレームワークである。我々の分析によると、プライバシ・ユーティリティ・フロンティアは、このエージェントの書き換えによってリークが34.6%減少し、限界効用損失は9.8%である。
参考スコア（独自算出の注目度）: 9.845529341562099
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While defenses for structured PII are mature, Large Language Models (LLMs) pose a new threat: Semantic Sensitive Information (SemSI), where models infer sensitive identity attributes, generate reputation-harmful content, or hallucinate potentially wrong information. The capacity of LLMs to self-regulate these complex, context-dependent sensitive information leaks without destroying utility remains an open scientific question. To address this, we introduce SemSIEdit, an inference-time framework where an agentic "Editor" iteratively critiques and rewrites sensitive spans to preserve narrative flow rather than simply refusing to answer. Our analysis reveals a Privacy-Utility Pareto Frontier, where this agentic rewriting reduces leakage by 34.6% across all three SemSI categories while incurring a marginal utility loss of 9.8%. We also uncover a Scale-Dependent Safety Divergence: large reasoning models (e.g., GPT-5) achieve safety through constructive expansion (adding nuance), whereas capacity-constrained models revert to destructive truncation (deleting text). Finally, we identify a Reasoning Paradox: while inference-time reasoning increases baseline risk by enabling the model to make deeper sensitive inferences, it simultaneously empowers the defense to execute safe rewrites.
Abstract（参考訳）: セマンティック・センシティブ・インフォメーション(Semantic Sensitive Information, セマンティック・センシティブ・インフォメーション, セマンティック・センシティブ・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション(セマンティック・インフォメーション, セマンティック・インフォメーション, セマンティック・インフォメーション, ; セマンティック実用性を破壊することなく、複雑な文脈に依存した機密情報漏洩を自己制御するLLMの能力は、未解決の科学的問題である。これを解決するために,エージェント的「編集者」が,単に答えを拒むのではなく,物語の流れを保たせるために,センシティブなスパンを反復的に批判・書き直しする推論時フレームワークであるSemSIEditを紹介した。我々の分析によると、プライバシ・ユーティリティ・パレートフロンティアは、3つのSemSIカテゴリで34.6%のリークを減らし、限界効用損失は9.8%である。大規模推論モデル(例: GPT-5)は,建設的拡張(ニュアンスの追加)を通じて安全性を達成するが,容量制約モデルでは破壊的トランケーション(テキストの削除)に回帰する。最後に、推論時間推論は、モデルにより深い機密性を持つ推論を可能にすることによって、ベースラインリスクを増加させるが、同時に防衛に安全な書き直しを実行する権限を与える。

関連論文リスト

When Should LLMs Be Less Specific? Selective Abstraction for Reliable Long-Form Text Generation [13.218758523354103]
Selective Abstraction(SA)は、LLMが信頼性のために特異性を交換できるフレームワークである。我々は,リスクを事実的正当性としてインスタンス化する,オープンエンドな生成のための新しいエンドツーエンドパイプラインを開発した。 FactScoreとLongFact-Objectsベンチマークの6つのオープンソースモデルにおいて、atom-wise SAは既存のベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-02-12T13:06:14Z)
Sponge Tool Attack: Stealthy Denial-of-Efficiency against Tool-Augmented Agentic Reasoning [58.432996881401415]
最近の作業では、エージェント推論を可能にするために、外部ツールで大きな言語モデル(LLM)を拡張している。本稿では,入力プロンプトを書き換えることのみでエージェント推論を妨害するスポンジツールアタック(STA)を提案する。 STAは、意味的忠実度の高い原文からの良心的な即興的な書き直しを生成する。
論文参考訳（メタデータ） (2026-01-24T19:36:51Z)
STaR: Sensitive Trajectory Regulation for Unlearning in Large Reasoning Models [12.133996629992318]
本稿では、推論プロセスを通じて堅牢なプライバシ保護を実現するパラメータフリー・推論時アンラーニングフレームワークを提案する。 R-TOFUベンチマークの実験は、STaRが最小限のユーティリティ損失で包括的で安定したアンラーニングを実現することを示した。
論文参考訳（メタデータ） (2026-01-14T08:35:23Z)
Explainability-Guided Defense: Attribution-Aware Model Refinement Against Adversarial Data Attacks [6.573058520271728]
私たちは、トレーニング中に直接活用できる、解釈可能性と堅牢性との関連性を特定します。本稿では,局所解釈可能なモデル非依存表現をアクティブな訓練信号に変換する属性誘導型改良フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-02T19:36:03Z)
Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文参考訳（メタデータ） (2025-10-27T04:02:52Z)
DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。 DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。 SLIMはセマンティックリークに特化した最初のデータセットである。
論文参考訳（メタデータ） (2025-10-16T17:39:21Z)
Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文参考訳（メタデータ） (2025-07-21T18:08:38Z)
Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか? ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文参考訳（メタデータ） (2025-06-08T02:43:46Z)
Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-20T11:21:40Z)
Swallowing the Poison Pills: Insights from Vulnerability Disparity Among LLMs [3.7913442178940318]
現代の大型言語モデル (LLM) は毒薬攻撃の重大な脆弱性を示す。我々はこれらの攻撃がLLMの固有のアーキテクチャ特性を悪用していることを実証する。私たちの研究は、セキュリティの脅威と診断ツールとして毒薬を確立しています。
論文参考訳（メタデータ） (2025-02-23T06:34:55Z)
From Mean to Extreme: Formal Differential Privacy Bounds on the Success of Real-World Data Reconstruction Attacks [54.25638567385662]
機械学習における微分プライバシーは、しばしばメンバーシップ推論に対する保証として解釈される。 DP予算を定量的な保護に翻訳することで、データ再構築の脅威を悪化させることは、依然として困難な課題である。本稿では、実証された"ゼロスクラッチ"攻撃のメカニズムに合わせた、最初の公式なプライバシー境界を導出することで、臨界ギャップを埋める。
論文参考訳（メタデータ） (2024-02-20T09:52:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。