Fugu-MT 論文翻訳(概要): Information Suppression in Large Language Models: Auditing, Quantifying, and Characterizing Censorship in DeepSeek

論文の概要: Information Suppression in Large Language Models: Auditing, Quantifying, and Characterizing Censorship in DeepSeek

arxiv url: http://arxiv.org/abs/2506.12349v1
Date: Sat, 14 Jun 2025 05:01:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:45.898992
Title: Information Suppression in Large Language Models: Auditing, Quantifying, and Characterizing Censorship in DeepSeek
Title（参考訳）: 大規模言語モデルにおける情報抑圧--ディープサークにおける聴取・定量化・特徴化
Authors: Peiran Qiu, Siyi Zhou, Emilio Ferrara,
Abstract要約: 本研究では中国で開発されたオープンソースの大規模言語モデル(LLM)であるDeepSeekにおける情報抑制機構について検討する。我々は、監査フレームワークを提案し、それを646の政治的に敏感なプロンプトに対するモデルの応答を分析するために利用する。調査では,DeepSeekにおける意味レベルの情報抑圧の証拠を明らかにした。
参考スコア（独自算出の注目度）: 8.528757656543604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study examines information suppression mechanisms in DeepSeek, an open-source large language model (LLM) developed in China. We propose an auditing framework and use it to analyze the model's responses to 646 politically sensitive prompts by comparing its final output with intermediate chain-of-thought (CoT) reasoning. Our audit unveils evidence of semantic-level information suppression in DeepSeek: sensitive content often appears within the model's internal reasoning but is omitted or rephrased in the final output. Specifically, DeepSeek suppresses references to transparency, government accountability, and civic mobilization, while occasionally amplifying language aligned with state propaganda. This study underscores the need for systematic auditing of alignment, content moderation, information suppression, and censorship practices implemented into widely-adopted AI models, to ensure transparency, accountability, and equitable access to unbiased information obtained by means of these systems.
Abstract（参考訳）: 本研究では中国で開発されたオープンソースの大規模言語モデル(LLM)であるDeepSeekにおける情報抑制機構について検討する。そこで我々は,646件の政治的センシティブなプロンプトに対して,最終的な結果と中間チェーン・オブ・シークレット(CoT)の推論を比較して,モデルの応答を解析するために,監査フレームワークを提案し,それを用いた。我々の監査はDeepSeekで意味レベルの情報抑圧の証拠を公表している: センシティブなコンテンツは、しばしばモデルの内部の推論の中に現れるが、最終的な出力で省略されるか、言い換えられる。具体的には、DeepSeekは透明性、政府の説明責任、市民の動員への言及を抑圧する一方で、時には州プロパガンダに合わせた言語を増幅する。本研究は,アライメント,コンテンツモデレーション,情報抑制,検閲の実践の体系的な監査の必要性を強調し,これらのシステムによって得られる不偏性情報に対する透明性,説明責任,公平なアクセスを確保することを目的とする。

関連論文リスト

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark [50.89916747049978]
有害なコンテンツ検出のための既存のリソースは、主に英語に重点を置いており、中国のデータセットは乏しく、スコープは限られている。我々は,6つの代表的なカテゴリを網羅し,実世界のデータから構築した,中国のコンテンツ害検知のための包括的,専門的な注釈付きベンチマークを提案する。本研究では,人間の注釈付き知識規則と大規模言語モデルからの暗黙的知識を統合した知識強化ベースラインを提案する。
論文参考訳（メタデータ） (2025-06-12T17:57:05Z)
From Rogue to Safe AI: The Role of Explicit Refusals in Aligning LLMs with International Humanitarian Law [0.0]
大規模言語モデル (LLM) は様々な分野で広く使われているが、国際人道法 (IHL) との整合性はよく理解されていない。本研究は、これらの法的枠組みに明示的に違反するプロンプトを拒否する能力について、8つの主要なLCMを評価した。発見は、より安全で透明性の高いAIシステムの開発に寄与する。
論文参考訳（メタデータ） (2025-06-05T16:53:29Z)
Understanding Refusal in Language Models with Sparse Autoencoders [27.212781538459588]
我々はスパースオートエンコーダを用いて、拒絶動作を因果的に仲介する潜伏特徴を特定する。我々は、世代への影響を評価するために、拒絶に関連する特徴に介入する。これにより、アクティベーションレベルでのリファインダーの表示方法のきめ細かい検査が可能になる。
論文参考訳（メタデータ） (2025-05-29T15:33:39Z)
Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文参考訳（メタデータ） (2025-05-29T09:19:07Z)
Discovering Forbidden Topics in Language Models [26.2418673687851]
トークンプリフィルを用いて禁止トピックを見つけるための拒絶探索手法を開発した。我々は、公共安全チューニングデータを備えたオープンソースモデルTulu-3-8BのIPCをベンチマークした。我々の発見は、AIシステムのバイアス、バウンダリ、アライメント障害を検出するために、リファリング法が重要な必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-23T03:49:06Z)
CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。 CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文参考訳（メタデータ） (2025-04-21T07:20:31Z)
Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文参考訳（メタデータ） (2025-04-07T06:55:15Z)
Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文参考訳（メタデータ） (2025-01-30T18:02:15Z)
CRAT: A Multi-Agent Framework for Causality-Enhanced Reflective and Retrieval-Augmented Translation with Large Language Models [59.8529196670565]
CRATは、RAGと因果強化自己回帰を利用して翻訳課題に対処する、新しいマルチエージェント翻訳フレームワークである。以上の結果からCRATは翻訳精度を著しく向上させ,特に文脈に敏感な単語や語彙の出現に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-28T14:29:11Z)
Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文参考訳（メタデータ） (2023-11-15T00:02:25Z)
From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文参考訳（メタデータ） (2023-10-22T16:07:06Z)
Towards Explainable Fact Checking [22.91475787277623]
この論文は、自動事実チェックに関する私の研究を提示します。これには、クレームチェックの信頼性検出、スタンス検出、正確性予測が含まれる。その貢献は事実チェックに留まらず、より一般的な機械学習ソリューションを提案している。
論文参考訳（メタデータ） (2021-08-23T16:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。