論文の概要: How Effective Is Constitutional AI in Small LLMs? A Study on DeepSeek-R1 and Its Peers
- arxiv url: http://arxiv.org/abs/2503.17365v2
- Date: Fri, 11 Apr 2025 09:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:17:19.386757
- Title: How Effective Is Constitutional AI in Small LLMs? A Study on DeepSeek-R1 and Its Peers
- Title(参考訳): 小型LLMにおける構成型AIはどの程度有効か? : DeepSeek-R1とそのピアの検討
- Authors: Antonio-Gabriel Chacón Menke, Phan Xuan Tan,
- Abstract要約: Llamaをベースとしたモデルでは,自己批判による有害度は著しく低下するが,他のアーキテクチャでは,失語後の有害度検出の改善が低かった。
結果は、CAIの有効性がモデルアーキテクチャや推論能力によって異なる可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent incidents highlight safety risks in Large Language Models (LLMs), motivating research into alignment methods like Constitutional AI (CAI). This paper explores CAI's self-critique mechanism on small, uncensored 7-9B parameter models: DeepSeek-R1-8B, Gemma-2-9B, Llama 3.1-8B, and Qwen2.5-7B. We show that while Llama-based models exhibited significant harm reduction through self-critique, other architectures demonstrated less improvement in harm detection after abliteration. These results suggest CAI's effectiveness may vary depending on model architecture and reasoning capabilities.
- Abstract(参考訳): 近年のインシデントは、Large Language Models(LLMs)の安全性リスクを強調し、コンスティチューショナルAI(CAI)のようなアライメント手法の研究を動機付けている。
本稿では,CAIの7-9BパラメータモデルであるDeepSeek-R1-8B,Gemma-2-9B,Llama 3.1-8B,Qwen2.5-7Bの自己批判機構について検討する。
Llamaをベースとしたモデルでは,自己批判による有害度は著しく低下するが,他のアーキテクチャでは,失語後の有害度検出の改善が低かった。
これらの結果は、CAIの有効性がモデルアーキテクチャや推論能力によって異なる可能性があることを示唆している。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - SMARTCAL: An Approach to Self-Aware Tool-Use Evaluation and Calibration [24.739131794947838]
我々は,2つの主要なツール・ユース・フレームワークを持つ3つのデータセット上で,最先端のLarge Language Models (LLM) ファミリーの研究を行う。
本研究は,自信過剰にツールを誤用する傾向にあるLSMのツール使用行動を明らかにする。
我々は、観察された問題を緩和するための新しいアプローチ、textitCALを提案する。
論文 参考訳(メタデータ) (2024-12-11T06:09:12Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Collapse-Aware Triplet Decoupling for Adversarially Robust Image Retrieval [12.007316506425079]
対人訓練は、対人的な例に対して画像検索を擁護する上で大きな成果を上げている。
ディープ・メトリック・ラーニング(DML)の既存の研究は、依然として弱敵とモデル崩壊という2つの大きな限界に悩まされている。
より強力な敵を得るために,Crolapse-Aware TRIplet Decoupling (CA-TRIDE)を提案する。
論文 参考訳(メタデータ) (2023-12-12T15:33:08Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - On Adversarial Robustness of Point Cloud Semantic Segmentation [16.89469632840972]
PCSSは、自律運転のような多くの安全クリティカルなアプリケーションに適用されている。
本研究は, PCSS モデルが敵対的サンプルにどのような影響を及ぼすかを示す。
我々は研究コミュニティの注意を喚起し、PCSSモデルを強化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-12-11T00:10:00Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Towards Deeper Deep Reinforcement Learning [42.960199987696306]
コンピュータビジョンや自然言語処理では、最先端の強化学習アルゴリズムは小さな内在性のみを使用することが多い。
データセットのサイズが制限要因ではないことを示し、代わりに、SACのアクターが批判を通じて勾配を取る不安定性が原因であると主張する。
論文 参考訳(メタデータ) (2021-06-02T13:41:02Z) - A Deep Marginal-Contrastive Defense against Adversarial Attacks on 1D
Models [3.9962751777898955]
ディープラーニングアルゴリズムは最近、脆弱性のために攻撃者がターゲットとしている。
非連続的深層モデルは、いまだに敵対的な攻撃に対して頑健ではない。
本稿では,特徴を特定のマージン下に置くことによって予測を容易にする新しい目的/損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-08T20:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。