論文の概要: Discovering Forbidden Topics in Language Models
- arxiv url: http://arxiv.org/abs/2505.17441v3
- Date: Wed, 11 Jun 2025 16:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.68768
- Title: Discovering Forbidden Topics in Language Models
- Title(参考訳): 言語モデルにおける禁止トピックの発見
- Authors: Can Rager, Chris Wendler, Rohit Gandikota, David Bau,
- Abstract要約: トークンプリフィルを用いて禁止トピックを見つけるための拒絶探索手法を開発した。
我々は、公共安全チューニングデータを備えたオープンソースモデルTulu-3-8BのIPCをベンチマークした。
我々の発見は、AIシステムのバイアス、バウンダリ、アライメント障害を検出するために、リファリング法が重要な必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 26.2418673687851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Refusal discovery is the task of identifying the full set of topics that a language model refuses to discuss. We introduce this new problem setting and develop a refusal discovery method, Iterated Prefill Crawler (IPC), that uses token prefilling to find forbidden topics. We benchmark IPC on Tulu-3-8B, an open-source model with public safety tuning data. Our crawler manages to retrieve 31 out of 36 topics within a budget of 1000 prompts. Next, we scale the crawler to a frontier model using the prefilling option of Claude-Haiku. Finally, we crawl three widely used open-weight models: Llama-3.3-70B and two of its variants finetuned for reasoning: DeepSeek-R1-70B and Perplexity-R1-1776-70B. DeepSeek-R1-70B reveals patterns consistent with censorship tuning: The model exhibits "thought suppression" behavior that indicates memorization of CCP-aligned responses. Although Perplexity-R1-1776-70B is robust to censorship, IPC elicits CCP-aligned refusals answers in the quantized model. Our findings highlight the critical need for refusal discovery methods to detect biases, boundaries, and alignment failures of AI systems.
- Abstract(参考訳): 拒絶発見(Refusal discovery)とは、言語モデルが議論を拒むトピックの完全なセットを特定するタスクである。
我々は,この新たな問題設定を導入し,トークンプリフィルを使用して禁止トピックを見つける,拒絶検出手法であるIterated Prefill Crawler (IPC)を開発した。
我々は、公共安全チューニングデータを備えたオープンソースモデルTulu-3-8BのIPCをベンチマークした。
私たちのクローラーは、1000のプロンプトで36のトピックのうち31を検索できます。
次にClaude-Haikuのプリフィルオプションを用いて,クローラをフロンティアモデルにスケールする。
最後に、Llama-3.3-70BとDeepSeek-R1-70BとPerplexity-R1-1776-70Bの2つの派生型をクロールした。
DeepSeek-R1-70Bは検閲チューニングと整合したパターンを明らかにしている。
Perplexity-R1-1776-70B は検閲に強いが、ICC は量子化モデルで CCP に整列した応答を拒否する。
我々の発見は、AIシステムのバイアス、バウンダリ、アライメント障害を検出するために、リファリング法が重要な必要性を浮き彫りにした。
関連論文リスト
- Steering the CensorShip: Uncovering Representation Vectors for LLM "Thought" Control [7.737740676767729]
我々は、表現工学技術を用いて、オープンウェイトな安全チューニングモデルの研究を行っている。
本稿では,モデル出力における検閲のレベルを検出し,制御する拒絶対応ベクトルの探索手法を提案する。
同様の手法を用いて、モデルの推論過程を抑えるベクターを見つけ出し、このベクターの負の倍数を適用することで検閲を除去できることを示す。
論文 参考訳(メタデータ) (2025-04-23T22:47:30Z) - Practical Continual Forgetting for Pre-trained Vision Models [61.41125567026638]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。
この問題を3つの重要な課題を連続的に忘れ、識別するものとして定義する。
本稿ではまず,各忘れるタスクに対してTransformerブロック内のFFN層を微調整するグループスパースLoRA(GS-LoRA)を提案する。
顔認識,物体検出,画像分類に関する広範な実験を行い,他のクラスへの影響を最小限に抑えながら,特定のクラスを忘れることが実証された。
論文 参考訳(メタデータ) (2025-01-16T17:57:53Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。