論文の概要: BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate
- arxiv url: http://arxiv.org/abs/2604.25203v1
- Date: Tue, 28 Apr 2026 04:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.712126
- Title: BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate
- Title(参考訳): BARRED:非対称討論によるカスタムポリシーガードレールの合成トレーニング
- Authors: Arnon Mazza, Elad Levi,
- Abstract要約: 本稿では,忠実で多様な合成トレーニングデータを生成するためのフレームワークであるBARREDを紹介する。
当社のアプローチでは、ドメイン空間をディメンションに分解して、包括的なカバレッジを確保しています。
さまざまなカスタムポリシを対象とした実験では、私たちの合成データに基づいて微調整された小さな言語モデルが、最先端のプロプライエタリなLLMを一貫して上回っていることが示されています。
- 参考スコア(独自算出の注目度): 5.385661171501795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying guardrails for custom policies remains challenging, as generic safety models fail to capture task-specific requirements, while prompting LLMs suffers from inconsistent boundary-case performance and high inference costs. Training custom classifiers achieves both accuracy and efficiency, yet demands substantial labeled data that is costly to obtain. We present BARRED (Boundary Alignment Refinement through REflection and Debate), a framework for generating faithful and diverse synthetic training data using only a task description and a small set of unlabeled examples. Our approach decomposes the domain space into dimensions to ensure comprehensive coverage, and employs multi-agent debate to verify label correctness, yielding a high-fidelity training corpus. Experiments across diverse custom policies demonstrate that small language models finetuned on our synthetic data consistently outperform state-of-the-art proprietary LLMs (including reasoning models) and dedicated guardrail models. Ablation studies confirm that both dimension decomposition and debate-based verification are critical for ensuring the diversity and label fidelity required for effective fine-tuning. The BARRED framework eliminates the reliance on extensive human annotation, offering a scalable solution for accurate custom guardrails.
- Abstract(参考訳): 一般的な安全モデルはタスク固有の要求を捉えず、LCMは一貫性のないバウンダリケースのパフォーマンスと高い推論コストに悩まされるため、カスタムポリシーのためのガードレールの展開は依然として困難である。
カスタム分類器の訓練は精度と効率を両立させるが、取得に要するかなりのラベル付きデータを要求する。
BARRED(Boundary Alignment Refinement through Reflection and Debate)は,タスク記述とラベルなし例の小さなセットのみを用いて,忠実で多様な合成トレーニングデータを生成するためのフレームワークである。
提案手法では,包括的カバレッジを確保するため,領域空間を次元に分解し,ラベルの正しさを検証するためにマルチエージェントの議論を行い,高忠実度トレーニングコーパスを得る。
さまざまなカスタムポリシを対象とした実験では、私たちの合成データに基づいて微調整された小さな言語モデルが、最先端のプロプライエタリなLLM(推論モデルを含む)や専用のガードレールモデルよりも一貫して優れています。
アブレーション研究は、次元分解と議論に基づく検証の両方が、効果的な微調整に必要な多様性とラベルの忠実さを保証するために重要であることを確認した。
BARREDフレームワークは、人間のアノテーションへの依存をなくし、正確なカスタムガードレールのためのスケーラブルなソリューションを提供する。
関連論文リスト
- SEVerA: Verified Synthesis of Self-Evolving Agents [12.9624447364193]
自己進化型エージェントフレームワークは、安全性や正確性の正式な保証を提供しない。
エージェントコード生成を制約付き学習問題として定式化し、ハードな形式仕様とソフトな目的とを組み合わせてタスクユーティリティをキャプチャする。
探索はFGGMコールを含む候補パラメトリックプログラムを合成し、検証は全てのパラメータ値に対する厳しい制約に関して正当性を証明し、制約のない学習に還元する。
論文 参考訳(メタデータ) (2026-03-26T07:32:20Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Optimizing In-Context Demonstrations for LLM-based Automated Grading [31.353360036776976]
GUIDE(Grading Using Iteratively Designed Exemplars)は、経験的選択と改善を境界中心の最適化問題として再設計するフレームワークである。
物理, 化学, 教育的内容知識の実験において, GUIDE は標準的検索基準を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:52:38Z) - BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - Conformal Arbitrage: Risk-Controlled Balancing of Competing Objectives in Language Models [5.294604210205507]
Conformal Arbitrageは、データ駆動しきい値を学び、主目的のために最適化されたプライマリモデルとより保守的なGuardianの間を仲介するフレームワークです。
提案手法は,精度において,モデル間のランダムなルーティングに一致したコストで優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-01T08:55:10Z) - A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection [0.0]
大規模言語モデル(LLM)は、ユーザがこれらのモデルに対して、意図した範囲を超えてタスクを実行するように促すという、オフトピー的な誤用を招きやすい。
現行のガードレールは、高い偽陽性率、限られた適応性、およびプレプロダクションでは利用できない実世界のデータを必要とする非現実性に悩まされている。
これらの課題に対処するフレキシブルでデータフリーなガードレール開発手法を導入します。
論文 参考訳(メタデータ) (2024-11-20T00:31:23Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。