論文の概要: How Effective Is Constitutional AI in Small LLMs? A Study on DeepSeek-R1 and Its Peers
- arxiv url: http://arxiv.org/abs/2503.17365v2
- Date: Fri, 11 Apr 2025 09:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 15:34:41.571805
- Title: How Effective Is Constitutional AI in Small LLMs? A Study on DeepSeek-R1 and Its Peers
- Title(参考訳): 小型LLMにおける構成型AIはどの程度有効か? : DeepSeek-R1とそのピアの検討
- Authors: Antonio-Gabriel Chacón Menke, Phan Xuan Tan,
- Abstract要約: Llamaをベースとしたモデルでは,自己批判による有害度は著しく低下するが,他のアーキテクチャでは,失語後の有害度検出の改善が低かった。
結果は、CAIの有効性がモデルアーキテクチャや推論能力によって異なる可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent incidents highlight safety risks in Large Language Models (LLMs), motivating research into alignment methods like Constitutional AI (CAI). This paper explores CAI's self-critique mechanism on small, uncensored 7-9B parameter models: DeepSeek-R1-8B, Gemma-2-9B, Llama 3.1-8B, and Qwen2.5-7B. We show that while Llama-based models exhibited significant harm reduction through self-critique, other architectures demonstrated less improvement in harm detection after abliteration. These results suggest CAI's effectiveness may vary depending on model architecture and reasoning capabilities.
- Abstract(参考訳): 近年のインシデントは、Large Language Models(LLMs)の安全性リスクを強調し、コンスティチューショナルAI(CAI)のようなアライメント手法の研究を動機付けている。
本稿では,CAIの7-9BパラメータモデルであるDeepSeek-R1-8B,Gemma-2-9B,Llama 3.1-8B,Qwen2.5-7Bの自己批判機構について検討する。
Llamaをベースとしたモデルでは,自己批判による有害度は著しく低下するが,他のアーキテクチャでは,失語後の有害度検出の改善が低かった。
これらの結果は、CAIの有効性がモデルアーキテクチャや推論能力によって異なる可能性があることを示唆している。
関連論文リスト
- Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - Constitution or Collapse? Exploring Constitutional AI with Llama 3-8B [10.162939166129132]
Anthropicが2022年12月に導入したConstitutional AIは、AIを使用して別のAIにフィードバックを提供する。
本稿では,より小さなLLaMA 3-8Bモデルを用いて,構成型AIワークフローを再現した。
この結果から, MT-Bench の攻撃成功率を 40.8% 削減し, 構成型AI がモデルの無害性を効果的に向上できることが示唆された。
論文 参考訳(メタデータ) (2025-04-07T11:01:25Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - SMARTCAL: An Approach to Self-Aware Tool-Use Evaluation and Calibration [24.739131794947838]
我々は,2つの主要なツール・ユース・フレームワークを持つ3つのデータセット上で,最先端のLarge Language Models (LLM) ファミリーの研究を行う。
本研究は,自信過剰にツールを誤用する傾向にあるLSMのツール使用行動を明らかにする。
我々は、観察された問題を緩和するための新しいアプローチ、textitCALを提案する。
論文 参考訳(メタデータ) (2024-12-11T06:09:12Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Collapse-Aware Triplet Decoupling for Adversarially Robust Image Retrieval [12.007316506425079]
対人訓練は、対人的な例に対して画像検索を擁護する上で大きな成果を上げている。
ディープ・メトリック・ラーニング(DML)の既存の研究は、依然として弱敵とモデル崩壊という2つの大きな限界に悩まされている。
より強力な敵を得るために,Crolapse-Aware TRIplet Decoupling (CA-TRIDE)を提案する。
論文 参考訳(メタデータ) (2023-12-12T15:33:08Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Towards Deeper Deep Reinforcement Learning [42.960199987696306]
コンピュータビジョンや自然言語処理では、最先端の強化学習アルゴリズムは小さな内在性のみを使用することが多い。
データセットのサイズが制限要因ではないことを示し、代わりに、SACのアクターが批判を通じて勾配を取る不安定性が原因であると主張する。
論文 参考訳(メタデータ) (2021-06-02T13:41:02Z) - A Deep Marginal-Contrastive Defense against Adversarial Attacks on 1D
Models [3.9962751777898955]
ディープラーニングアルゴリズムは最近、脆弱性のために攻撃者がターゲットとしている。
非連続的深層モデルは、いまだに敵対的な攻撃に対して頑健ではない。
本稿では,特徴を特定のマージン下に置くことによって予測を容易にする新しい目的/損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-08T20:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。