論文の概要: CAPE: Capability Achievement via Policy Execution
- arxiv url: http://arxiv.org/abs/2512.14761v1
- Date: Mon, 15 Dec 2025 18:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.730098
- Title: CAPE: Capability Achievement via Policy Execution
- Title(参考訳): CAPE:政策実行による能力達成
- Authors: David Ball,
- Abstract要約: 私たちは、要求を実行可能な仕様に変換し、それらをデフォルトで満足させるためにトレーニングモデルをトレーニングする体系的なプラクティスである、能力工学を紹介します。
本稿では,CAPE (Capability Achievement via Policy Execution) を通じて,特定の -> 検証 -> 正しい -> 列車ループを実装するプロトコルを運用する。
6つのドメインで109,500件のサンプルに対して、CAPEはDPO(標準偏差0.3%未満)と比較して、違反率を81%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern AI systems lack a way to express and enforce requirements. Pre-training produces intelligence, and post-training optimizes preferences, but neither guarantees that models reliably satisfy explicit, context-dependent constraints. This missing abstraction explains why highly intelligent models routinely fail in deployment despite strong benchmark performance. We introduce Capability Engineering, the systematic practice of converting requirements into executable specifications and training models to satisfy them by default. We operationalize this practice through CAPE (Capability Achievement via Policy Execution), a protocol implementing a Specify -> Verify -> Correct -> Train loop. CAPE is grounded in two empirical findings: (1) contextual objectivity, where properties appearing subjective become objective once context is fixed (inter-annotator agreement rises from kappa = 0.42 to kappa = 0.98), and (2) verification-fidelity scaling, where verification accuracy improves with model scale (r = 0.94), unlike preference agreement which plateaus at 30 to 50 percent disagreement regardless of compute. Across 109,500 examples in six domains, CAPE reduces violation rates by 81 percent relative to DPO (standard deviation less than 0.3 percent). By replacing per-example annotation with reusable specifications, CAPE reduces costs by 5 to 20 times and shortens timelines from months to weeks. We release the CAPE protocol, PredicateGraph schema, CPL specification language, and policy packs under Apache 2.0. We also launch CapabilityBench, a public registry of model evaluations against community-contributed policies, shifting evaluation from intelligence benchmarks toward capability measurement.
- Abstract(参考訳): 現代のAIシステムには、要求を表現し、強制する手段がない。
事前トレーニングはインテリジェンスを生成し、後トレーニングは好みを最適化するが、モデルが明示的でコンテキストに依存した制約を確実に満たすことは保証しない。
この欠落した抽象化は、強力なベンチマークパフォーマンスにもかかわらず、非常にインテリジェントなモデルが通常デプロイで失敗する理由を説明している。
私たちは、要求を実行可能な仕様に変換し、それらをデフォルトで満足させるためにトレーニングモデルをトレーニングする体系的なプラクティスである、能力工学を紹介します。
我々は,CAPE (Capability Achievement via Policy Execution) を通じて,このプラクティスを運用する。
CAPE は、(1) 主観的出現する特性が1つの文脈に固定された場合の文脈的客観性 (inter-annotator agreement は kappa = 0.42 から kappa = 0.98 に上昇する) 、(2) モデルのスケールによって検証精度が向上する場合(r = 0.94) 、計算によらず30%から50%の相違が生じるような嗜好契約とは異なり、検証・忠実スケーリング (verification-fidelity scaling) である。
6つのドメインで109,500件のサンプルに対して、CAPEはDPO(標準偏差0.3%未満)と比較して、違反率を81%削減する。
例ごとのアノテーションを再利用可能な仕様に置き換えることで、CAPEはコストを5~20倍削減し、タイムラインを数ヶ月から数週間に短縮する。
私たちはCAPEプロトコル、PredicateGraphスキーマ、CPL仕様言語、およびポリシーパックをApache 2.0でリリースしています。
我々はまた、コミュニティが分散したポリシーに対するモデル評価の公開レジストリであるCapabilityBenchをローンチし、インテリジェンスベンチマークから能力測定に移行する。
関連論文リスト
- Empirical Characterization of Temporal Constraint Processing in LLMs [0.2538209532048866]
期限検出タスクを用いて8つの生産規模モデル(2.8-8Bパラメータ)の時間制約処理を特徴付ける。
合成例200点の微調整により,部分的性能を持つモデルが12~37ポイント向上することを示す。
この能力には,(1)連続時間状態表現,(2)言語パターンマッチングから分離した明示的な制約チェック,(3)時間的関係に対する体系的な構成的推論といったアーキテクチャ機構が必要である。
論文 参考訳(メタデータ) (2025-11-02T20:03:52Z) - You Don't Need Prompt Engineering Anymore: The Prompting Inversion [0.3946915822335988]
Sculptingは、標準CoTを改善するために設計された制約付きルールベースのプロンプト手法である。
3つのOpenAIモデル世代にわたる3つのプロンプト戦略を評価する。
論文 参考訳(メタデータ) (2025-10-25T11:04:01Z) - Navigating the Synchrony-Stability Frontier in Adaptive Chatbots [0.0]
コア設計の緊張を明示する計算評価フレームワークを提案する。
人間のログデータセットに対する明示的な適応ポリシーをシミュレートし比較する。
限定されたポリシーは、同期に控えめなコストで、安定性の大幅な向上を実現している。
我々は、フロンティアポリシーが命令のチャーンを減らし、ジャリングレジスタのフリップを減らしたことを示す「素早い正当性」を定量化する。
論文 参考訳(メタデータ) (2025-09-30T22:50:30Z) - Conditioning Matters: Training Diffusion Policies is Faster Than You Think [69.31534053485711]
拡散政策は、視覚言語アクション(VLA)モデルを構築するための主流パラダイムとして登場した。
条件拡散政策訓練の基本的な課題は, 生成条件の識別が困難である場合, 訓練対象が限界行動分布をモデル化することである。
条件に依存しない条件付きフローマッチングにおけるソース分布を変更するソリューションであるCocosを提案する。
論文 参考訳(メタデータ) (2025-05-16T11:14:22Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Soft Actor-Critic Algorithm with Truly-satisfied Inequality Constraint [8.071506311915396]
強化学習におけるソフトアクター批判(SAC)は,次世代ロボット制御方式の一つとして期待されている。
現在のSACは、私たちの期待に反して、政策のエントロピーを最大化しない。
本稿では,学習可能な状態依存スラック変数を用いて実装を改善する。
論文 参考訳(メタデータ) (2023-03-08T03:32:50Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。