論文の概要: C3AI: Crafting and Evaluating Constitutions for Constitutional AI
- arxiv url: http://arxiv.org/abs/2502.15861v1
- Date: Fri, 21 Feb 2025 10:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:37.237270
- Title: C3AI: Crafting and Evaluating Constitutions for Constitutional AI
- Title(参考訳): C3AI: 憲法AIのための憲法の作成と評価
- Authors: Yara Kyrychenko, Ke Zhou, Edyta Bogucka, Daniele Quercia,
- Abstract要約: 我々はC3AIフレームワークを導入し、微調整の前に効果的な構成を形成するための原則の選択と構成という2つの重要な機能を提供します。
AIと心理学から原則を分析することで、ポジティブなフレーム化された行動に基づく原則が、ネガティブなフレーム化された原則や特性に基づく原則よりも人間の好みとより密接に一致していることがわかりました。
微調整されたCAIモデルは、負の枠付き原理ではうまく機能したが、人間のアライメント結果とは対照的に、正の枠付き原理では苦労した。
- 参考スコア(独自算出の注目度): 4.393788620560099
- License:
- Abstract: Constitutional AI (CAI) guides LLM behavior using constitutions, but identifying which principles are most effective for model alignment remains an open challenge. We introduce the C3AI framework (\textit{Crafting Constitutions for CAI models}), which serves two key functions: (1) selecting and structuring principles to form effective constitutions before fine-tuning; and (2) evaluating whether fine-tuned CAI models follow these principles in practice. By analyzing principles from AI and psychology, we found that positively framed, behavior-based principles align more closely with human preferences than negatively framed or trait-based principles. In a safety alignment use case, we applied a graph-based principle selection method to refine an existing CAI constitution, improving safety measures while maintaining strong general reasoning capabilities. Interestingly, fine-tuned CAI models performed well on negatively framed principles but struggled with positively framed ones, in contrast to our human alignment results. This highlights a potential gap between principle design and model adherence. Overall, C3AI provides a structured and scalable approach to both crafting and evaluating CAI constitutions.
- Abstract(参考訳): コンスティチューショナルAI(CAI)は、LLMの動作をコンスティチューションを使ってガイドするが、どの原則がモデルアライメントに最も効果的かを特定することはオープンな課題である。
C3AIフレームワーク (\textit{Crafting Constitutions for CAI model}) は,(1) 微調整の前に有効な構成を構成するための原則の選択と構造化,(2) 細調整されたCAIモデルが実際にこれらの原則に従うかどうかを評価する。
AIと心理学から原則を分析することで、ポジティブなフレーム化された行動に基づく原則が、ネガティブなフレーム化された原則や特性に基づく原則よりも人間の好みとより密接に一致していることがわかりました。
安全アライメントのユースケースでは、グラフベースの原則選択手法を適用し、既存のCAI構成を洗練させ、強力な一般的な推論能力を維持しつつ安全対策を改善した。
興味深いことに、微調整のCAIモデルは、ネガティブなフレーム化原則ではうまく機能したが、人間のアライメント結果とは対照的に、ポジティブなフレーム化原則では苦労した。
これは、原則設計とモデル順守の間の潜在的なギャップを浮き彫りにする。
全体として、C3AIはCAI構成の作成と評価の両方に対して、構造化されスケーラブルなアプローチを提供する。
関連論文リスト
- Unlocking Transparent Alignment Through Enhanced Inverse Constitutional AI for Principle Extraction [0.0]
コンスティチューショナルAI(CAI)は、モデル出力を導くための明示的なルールベースのフレームワークを提供する。
Inverse Constitutional AI (ICAI)アルゴリズムを改良し、好みのデータセットから構成を抽出する。
我々の結果は、これらの原則がより透明で適応可能なアライメント手法を促進する可能性を強調します。
論文 参考訳(メタデータ) (2025-01-28T17:59:56Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot
Learning [62.090051975043544]
属性とオブジェクト(A-O)の絡み合いは、合成ゼロショット学習(CZSL)の基本的かつ重要な問題である
CZSL(Class-specified Cascaded Network, CSCNet)のための新しいA-O不整合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T14:18:41Z) - Measuring Value Alignment [12.696227679697493]
本稿では,AIシステムと人的価値の整合性を定量化する新しいフォーマリズムを提案する。
このフォーマリズムを利用することで、AI開発者と倫理学者は、人間の価値と調和して動作するように、AIシステムを設計し、評価することができる。
論文 参考訳(メタデータ) (2023-12-23T12:30:06Z) - Specific versus General Principles for Constitutional AI [27.08490948333949]
コンスティチューショナルAIは、人間のフィードバックを、書かれた原則のリストにのみ条件付きフィードバックで置き換える、代替手段を提供する。
このアプローチは、このような振る舞いの表現を効果的に防ぐことができる。
したがって、一般的な原則は、潜在的に有害な行動をターゲットにした長い憲法のリストの必要性を部分的に回避することができる。
論文 参考訳(メタデータ) (2023-10-20T20:12:45Z) - The Open-World Lottery Ticket Hypothesis for OOD Intent Classification [68.93357975024773]
我々はOODに対するモデル過信の根本的な原因を明かした。
Lottery Ticket仮説も,オープンワールドシナリオに拡張しています。
論文 参考訳(メタデータ) (2022-10-13T14:58:35Z) - Combining Rules and Embeddings via Neuro-Symbolic AI for Knowledge Base
Completion [59.093293389123424]
すべてのルールベースの知識ベースコンプリートモデルが同じではないことを示す。
1)関係の混合と,2)経路の混合の2つの異なるアプローチを提案する。
ブール論理を実数値論理に拡張することでルールを学習するニューロシンボリックAI上に実装すると、後者のモデルは、平均相互ランクにおいて、最先端のKBC精度を2-10%向上させる。
論文 参考訳(メタデータ) (2021-09-16T17:54:56Z) - Actionable Principles for Artificial Intelligence Policy: Three Pathways [0.0]
本稿では,AIのための行動原理開発のための新しい枠組みを提案する。
このアプローチは、政策プロセスにおける実践性を高めるための方法論的要素におけるAI倫理原則と家庭の関係を認識している。
論文 参考訳(メタデータ) (2021-02-24T16:57:35Z) - A Unified Taylor Framework for Revisiting Attribution Methods [49.03783992773811]
我々はTaylor属性フレームワークを提案し、7つの主流属性メソッドをフレームワークに再構成する。
我々はTaylor属性フレームワークにおいて、良い属性の3つの原則を確立する。
論文 参考訳(メタデータ) (2020-08-21T22:07:06Z) - A general framework for defining and optimizing robustness [74.67016173858497]
分類器の様々な種類の堅牢性を定義するための厳密でフレキシブルなフレームワークを提案する。
我々の概念は、分類器の堅牢性は正確性とは無関係な性質と考えるべきであるという仮定に基づいている。
我々は,任意の分類モデルに適用可能な,非常に一般的なロバスト性フレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-19T13:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。