論文の概要: Discovering Forbidden Topics in Language Models
- arxiv url: http://arxiv.org/abs/2505.17441v3
- Date: Wed, 11 Jun 2025 16:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.68768
- Title: Discovering Forbidden Topics in Language Models
- Title(参考訳): 言語モデルにおける禁止トピックの発見
- Authors: Can Rager, Chris Wendler, Rohit Gandikota, David Bau,
- Abstract要約: トークンプリフィルを用いて禁止トピックを見つけるための拒絶探索手法を開発した。
我々は、公共安全チューニングデータを備えたオープンソースモデルTulu-3-8BのIPCをベンチマークした。
我々の発見は、AIシステムのバイアス、バウンダリ、アライメント障害を検出するために、リファリング法が重要な必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 26.2418673687851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Refusal discovery is the task of identifying the full set of topics that a language model refuses to discuss. We introduce this new problem setting and develop a refusal discovery method, Iterated Prefill Crawler (IPC), that uses token prefilling to find forbidden topics. We benchmark IPC on Tulu-3-8B, an open-source model with public safety tuning data. Our crawler manages to retrieve 31 out of 36 topics within a budget of 1000 prompts. Next, we scale the crawler to a frontier model using the prefilling option of Claude-Haiku. Finally, we crawl three widely used open-weight models: Llama-3.3-70B and two of its variants finetuned for reasoning: DeepSeek-R1-70B and Perplexity-R1-1776-70B. DeepSeek-R1-70B reveals patterns consistent with censorship tuning: The model exhibits "thought suppression" behavior that indicates memorization of CCP-aligned responses. Although Perplexity-R1-1776-70B is robust to censorship, IPC elicits CCP-aligned refusals answers in the quantized model. Our findings highlight the critical need for refusal discovery methods to detect biases, boundaries, and alignment failures of AI systems.
- Abstract(参考訳): 拒絶発見(Refusal discovery)とは、言語モデルが議論を拒むトピックの完全なセットを特定するタスクである。
我々は,この新たな問題設定を導入し,トークンプリフィルを使用して禁止トピックを見つける,拒絶検出手法であるIterated Prefill Crawler (IPC)を開発した。
我々は、公共安全チューニングデータを備えたオープンソースモデルTulu-3-8BのIPCをベンチマークした。
私たちのクローラーは、1000のプロンプトで36のトピックのうち31を検索できます。
次にClaude-Haikuのプリフィルオプションを用いて,クローラをフロンティアモデルにスケールする。
最後に、Llama-3.3-70BとDeepSeek-R1-70BとPerplexity-R1-1776-70Bの2つの派生型をクロールした。
DeepSeek-R1-70Bは検閲チューニングと整合したパターンを明らかにしている。
Perplexity-R1-1776-70B は検閲に強いが、ICC は量子化モデルで CCP に整列した応答を拒否する。
我々の発見は、AIシステムのバイアス、バウンダリ、アライメント障害を検出するために、リファリング法が重要な必要性を浮き彫りにした。
関連論文リスト
- Understanding Refusal in Language Models with Sparse Autoencoders [27.212781538459588]
我々はスパースオートエンコーダを用いて、拒絶動作を因果的に仲介する潜伏特徴を特定する。
我々は、世代への影響を評価するために、拒絶に関連する特徴に介入する。
これにより、アクティベーションレベルでのリファインダーの表示方法のきめ細かい検査が可能になる。
論文 参考訳(メタデータ) (2025-05-29T15:33:39Z) - R1dacted: Investigating Local Censorship in DeepSeek's R1 Language Model [17.402774424821814]
報道によると、R1は中国の政治的にセンシティブなトピックに関する特定のプロンプトに答えることを拒否している。
我々は、R1によって検閲されるが、他のモデルでは検閲されない、厳格にキュレートされたプロンプトの大規模なセットを導入する。
我々はR1の検閲パターンを包括的に分析し、一貫性、トリガー、トピック間のバリエーション、フレーズのプロンプト、コンテキストを調べます。
論文 参考訳(メタデータ) (2025-05-19T02:16:56Z) - Steering the CensorShip: Uncovering Representation Vectors for LLM "Thought" Control [7.737740676767729]
我々は、表現工学技術を用いて、オープンウェイトな安全チューニングモデルの研究を行っている。
本稿では,モデル出力における検閲のレベルを検出し,制御する拒絶対応ベクトルの探索手法を提案する。
同様の手法を用いて、モデルの推論過程を抑えるベクターを見つけ出し、このベクターの負の倍数を適用することで検閲を除去できることを示す。
論文 参考訳(メタデータ) (2025-04-23T22:47:30Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [70.78205685001168]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
UGBenchは、スコープ内暗黙の知識の未学習を評価するために特別に設計された最初のベンチマークである。
確率に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation [18.098228823748617]
本稿では,RAGデータストア内の文書を対象としたメンバシップ推論手法であるInterrogation Attack (IA)を提案する。
ステルス性を維持しながら、たった30クエリで推論に成功したことを実証します。
我々は,様々なRAG構成に対する事前推論攻撃に対して,TPR@1%FPRの2倍の改善が観察された。
論文 参考訳(メタデータ) (2025-02-01T04:01:18Z) - Practical Continual Forgetting for Pre-trained Vision Models [61.41125567026638]
現実のシナリオでは、選択的な情報は事前訓練されたモデルから継続的に取り除かれることが期待される。
この問題を3つの重要な課題を連続的に忘れ、識別するものとして定義する。
本稿ではまず,各忘れるタスクに対してTransformerブロック内のFFN層を微調整するグループスパースLoRA(GS-LoRA)を提案する。
顔認識,物体検出,画像分類に関する広範な実験を行い,他のクラスへの影響を最小限に抑えながら,特定のクラスを忘れることが実証された。
論文 参考訳(メタデータ) (2025-01-16T17:57:53Z) - Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models [0.0]
テキスト分類アルゴリズムのロバスト性をテストするために,逆例を生成するという課題について検討する。
我々は、攻撃者が試すことができるクエリ数に現実的な制限を設定することで、コンテンツモデレーションのシミュレーションに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-28T11:46:30Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文 参考訳(メタデータ) (2024-02-23T04:23:33Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Make Them Spill the Beans! Coercive Knowledge Extraction from
(Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。
このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10~20倍である。
本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文 参考訳(メタデータ) (2023-12-08T01:41:36Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - CAR: Conceptualization-Augmented Reasoner for Zero-Shot Commonsense
Question Answering [56.592385613002584]
ゼロショットコモンセンス質問応答の課題に対処するために,概念化強化推論器(CAR)を提案する。
CARは、CommonSenseの知識を多くの高レベルなインスタンスに抽象化し、CommonSenseの知識ベースの範囲を拡大する。
CARは、既存のメソッドよりも、ゼロショットのコモンセンスシナリオに関する質問に答えることにより、より堅牢に一般化する。
論文 参考訳(メタデータ) (2023-05-24T08:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。