論文の概要: Constitution or Collapse? Exploring Constitutional AI with Llama 3-8B
- arxiv url: http://arxiv.org/abs/2504.04918v1
- Date: Mon, 07 Apr 2025 11:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:51.687312
- Title: Constitution or Collapse? Exploring Constitutional AI with Llama 3-8B
- Title(参考訳): 憲法か崩壊か? Llama 3-8Bで憲法のAIを探る
- Authors: Xue Zhang,
- Abstract要約: Anthropicが2022年12月に導入したConstitutional AIは、AIを使用して別のAIにフィードバックを提供する。
本稿では,より小さなLLaMA 3-8Bモデルを用いて,構成型AIワークフローを再現した。
この結果から, MT-Bench の攻撃成功率を 40.8% 削減し, 構成型AI がモデルの無害性を効果的に向上できることが示唆された。
- 参考スコア(独自算出の注目度): 10.162939166129132
- License:
- Abstract: As language models continue to grow larger, the cost of acquiring high-quality training data has increased significantly. Collecting human feedback is both expensive and time-consuming, and manual labels can be noisy, leading to an imbalance between helpfulness and harmfulness. Constitutional AI, introduced by Anthropic in December 2022, uses AI to provide feedback to another AI, greatly reducing the need for human labeling. However, the original implementation was designed for a model with around 52 billion parameters, and there is limited information on how well Constitutional AI performs with smaller models, such as LLaMA 3-8B. In this paper, we replicated the Constitutional AI workflow using the smaller LLaMA 3-8B model. Our results show that Constitutional AI can effectively increase the harmlessness of the model, reducing the Attack Success Rate in MT-Bench by 40.8%. However, similar to the original study, increasing harmlessness comes at the cost of helpfulness. The helpfulness metrics, which are an average of the Turn 1 and Turn 2 scores, dropped by 9.8% compared to the baseline. Additionally, we observed clear signs of model collapse in the final DPO-CAI model, indicating that smaller models may struggle with self-improvement due to insufficient output quality, making effective fine-tuning more challenging. Our study suggests that, like reasoning and math ability, self-improvement is an emergent property.
- Abstract(参考訳): 言語モデルが大きくなり続ければ、高品質なトレーニングデータを取得するコストは大幅に増大する。
人間のフィードバックを集めることは費用も時間もかかるし、手動のラベルは騒がしいため、有用性と有害性のバランスがとれない。
Anthropicが2022年12月に導入したコンスティチューショナルAIは、AIを使用して別のAIにフィードバックを提供する。
しかし、オリジナルの実装は、約52億のパラメータを持つモデルのために設計されており、LLaMA 3-8Bのようなより小さなモデルで、コンスティチューションAIがどの程度うまく機能するかは制限されている。
本稿では,より小さなLLaMA 3-8Bモデルを用いて,構成型AIワークフローを再現した。
この結果から, MT-Bench の攻撃成功率を 40.8% 削減し, 構成型AI がモデルの無害性を効果的に向上できることが示唆された。
しかし、元々の研究と同様、無害感の増加は役立ちの犠牲となる。
有効度はターン1とターン2の平均値であり、ベースラインに比べて9.8%低下した。
さらに, 最終DPO-CAIモデルにおいて, モデル崩壊の兆候が明らかとなり, 出力品質が不十分なため, 小型モデルでは自己改善に苦慮する可能性が示唆された。
我々の研究は、推論や数学の能力と同様に、自己改善が創発的な性質であることを示唆している。
関連論文リスト
- Great Models Think Alike and this Undermines AI Oversight [47.7725284401918]
モデル類似性がAI監視の両面に与える影響について検討する。
モデル誤りの重複に基づくLM類似性の確率論的尺度を提案する。
我々の研究は、モデル類似性の報告と修正の重要性を強調します。
論文 参考訳(メタデータ) (2025-02-06T18:56:01Z) - Concept Distillation from Strong to Weak Models via Hypotheses-to-Theories Prompting [7.146498833443095]
概念蒸留(CD)は、複雑なタスクにおいてより弱いモデルを強化するための自動プロンプト最適化手法である。
CDは、(1)ベースプロンプト(初期化)による弱いモデルによるミスの収集、(2)強いモデルを使用してこれらのミスの原因を生成し、弱いモデル(推論)のためのルール/概念を作成し、(3)検証セットのパフォーマンスに基づいてこれらのルールをフィルタリングする。
我々はNL2Codeと数学的推論タスクにおけるCDの評価を行い、より小型で弱い言語モデルに対する顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2024-08-18T05:37:48Z) - Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge [77.9094410773789]
大規模言語モデル(LLM)は、多くのドメインにおける人間の知識を急速に上回っている。
近年の自己回帰機構では、LDMは人間のラベルに頼らず、自分自身の反応を判断することで改善可能であることが示されている。
本稿では,自己改善プロセスにメタリワードの新たなステップを導入し,モデルが自身の判断を判断し,そのフィードバックを用いて判断スキルを洗練させる。
論文 参考訳(メタデータ) (2024-07-28T21:58:28Z) - Weak-to-Strong Reasoning [33.20094938292376]
我々は、強力なモデルを自律的に訓練データを洗練させるプログレッシブラーニングフレームワークを導入する。
3つの弱いモデルを用いてLlama2-70bの推論能力を大幅に向上させる。
この作業は、AI推論能力を強化するための、よりスケーラブルで洗練された戦略の道を開くものだ。
論文 参考訳(メタデータ) (2024-07-18T16:25:17Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Disarming Steganography Attacks Inside Neural Network Models [4.750077838548593]
本稿では,AIモデル攻撃の解除と再構築に基づくゼロトラスト防止戦略を提案する。
本研究では,Qint8法とK-LRBP法に基づくモデル精度の低下を最小限に抑えながら,100%の防止率を示す。
論文 参考訳(メタデータ) (2023-09-06T15:18:35Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Publishing Efficient On-device Models Increases Adversarial
Vulnerability [58.6975494957865]
本稿では,大規模モデルのオンデバイス版を公開する際のセキュリティ上の考慮事項について検討する。
まず、敵がデバイス上のモデルを悪用し、大きなモデルを攻撃しやすくすることを示す。
次に、フルスケールと効率的なモデルとの類似性が増加するにつれて、脆弱性が増加することを示す。
論文 参考訳(メタデータ) (2022-12-28T05:05:58Z) - Constitutional AI: Harmlessness from AI Feedback [19.964791766072132]
我々は、自己改善を通じて無害なAIアシスタントを訓練する手法を実験した。
人間の監視はルールや原則の一覧を通じてのみ提供される。
私たちは、有害なクエリに対処する、無害だが回避できないAIアシスタントをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-12-15T06:19:23Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。