論文の概要: R1dacted: Investigating Local Censorship in DeepSeek's R1 Language Model
- arxiv url: http://arxiv.org/abs/2505.12625v1
- Date: Mon, 19 May 2025 02:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.353049
- Title: R1dacted: Investigating Local Censorship in DeepSeek's R1 Language Model
- Title(参考訳): R1dacted: DeepSeekのR1言語モデルにおける局所的な検閲の調査
- Authors: Ali Naseh, Harsh Chaudhari, Jaechul Roh, Mingshi Wu, Alina Oprea, Amir Houmansadr,
- Abstract要約: 報道によると、R1は中国の政治的にセンシティブなトピックに関する特定のプロンプトに答えることを拒否している。
我々は、R1によって検閲されるが、他のモデルでは検閲されない、厳格にキュレートされたプロンプトの大規模なセットを導入する。
我々はR1の検閲パターンを包括的に分析し、一貫性、トリガー、トピック間のバリエーション、フレーズのプロンプト、コンテキストを調べます。
- 参考スコア(独自算出の注目度): 17.402774424821814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DeepSeek recently released R1, a high-performing large language model (LLM) optimized for reasoning tasks. Despite its efficient training pipeline, R1 achieves competitive performance, even surpassing leading reasoning models like OpenAI's o1 on several benchmarks. However, emerging reports suggest that R1 refuses to answer certain prompts related to politically sensitive topics in China. While existing LLMs often implement safeguards to avoid generating harmful or offensive outputs, R1 represents a notable shift - exhibiting censorship-like behavior on politically charged queries. In this paper, we investigate this phenomenon by first introducing a large-scale set of heavily curated prompts that get censored by R1, covering a range of politically sensitive topics, but are not censored by other models. We then conduct a comprehensive analysis of R1's censorship patterns, examining their consistency, triggers, and variations across topics, prompt phrasing, and context. Beyond English-language queries, we explore censorship behavior in other languages. We also investigate the transferability of censorship to models distilled from the R1 language model. Finally, we propose techniques for bypassing or removing this censorship. Our findings reveal possible additional censorship integration likely shaped by design choices during training or alignment, raising concerns about transparency, bias, and governance in language model deployment.
- Abstract(参考訳): DeepSeekは最近、推論タスクに最適化された高性能な大規模言語モデル(LLM)であるR1をリリースした。
効率的なトレーニングパイプラインにもかかわらず、R1は競争力のあるパフォーマンスを達成しており、OpenAIのo1のような主要な推論モデルを数ベンチマークで上回っている。
しかし、近年の報道は、R1が中国の政治的に敏感なトピックに関する特定のプロンプトに答えることを拒否したことを示唆している。
既存のLLMは、有害または攻撃的なアウトプットの発生を避けるために、しばしばセーフガードを実装していますが、R1は、政治的に課金されたクエリに対して検閲のような振る舞いを示す、顕著な変化を示しています。
本稿では、まず、R1によって検閲され、政治的に敏感なトピックを網羅するが、他のモデルでは検閲されない、大規模にキュレートされたプロンプトのセットを導入することにより、この現象を考察する。
次に、R1の検閲パターンを包括的に分析し、一貫性、トリガー、トピック間のバリエーション、フレーズのプロンプト、コンテキストを調べます。
英語クエリ以外にも,他言語の検閲行動についても検討する。
また,R1言語モデルから抽出したモデルに対する検閲の伝達可能性についても検討する。
最後に,この検閲を回避・排除する手法を提案する。
私たちの発見は、トレーニングやアライメント中にデザインの選択によって形成された、言語モデルデプロイメントにおける透明性、バイアス、ガバナンスに関する懸念を提起する検閲の統合の可能性を明らかにします。
関連論文リスト
- Steering the CensorShip: Uncovering Representation Vectors for LLM "Thought" Control [7.737740676767729]
我々は、表現工学技術を用いて、オープンウェイトな安全チューニングモデルの研究を行っている。
本稿では,モデル出力における検閲のレベルを検出し,制御する拒絶対応ベクトルの探索手法を提案する。
同様の手法を用いて、モデルの推論過程を抑えるベクターを見つけ出し、このベクターの負の倍数を適用することで検閲を除去できることを示す。
論文 参考訳(メタデータ) (2025-04-23T22:47:30Z) - What Large Language Models Do Not Talk About: An Empirical Study of Moderation and Censorship Practices [46.30336056625582]
本研究は,大規模言語モデルが政治的話題に刺激された場合の回答や省略を拒否する程度について検討する。
我々の分析では、西欧諸国、中国、ロシアの14の最先端モデルが、国連(UN)の6つの公式言語すべてで引き起こされている。
論文 参考訳(メタデータ) (2025-04-04T09:09:06Z) - CensorLab: A Testbed for Censorship Experimentation [15.411134921415567]
我々は,インターネット検閲シナリオをエミュレートする汎用プラットフォームであるCensorLabを設計し,実装する。
CensorLabは、これまでまたは現在、現実世界の検閲によってデプロイされているすべての検閲メカニズムをサポートすることを目指している。
研究者や実践者が広範な実験を行えるように、使い易いプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-12-20T21:17:24Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem? [52.71988102039535]
セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
論文 参考訳(メタデータ) (2023-07-20T09:25:02Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。