論文の概要: Customize Multi-modal RAI Guardrails with Precedent-based predictions
- arxiv url: http://arxiv.org/abs/2507.20503v1
- Date: Mon, 28 Jul 2025 03:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.782119
- Title: Customize Multi-modal RAI Guardrails with Precedent-based predictions
- Title(参考訳): 先行予測によるマルチモーダルRAIガードレールのカスタマイズ
- Authors: Cheng-Fu Yang, Thanh Tran, Christos Christodoulopoulos, Weitong Ruan, Rahul Gupta, Kai-Wei Chang,
- Abstract要約: マルチモーダルガードレールは、ユーザ定義ポリシーに基づいて、画像コンテンツを効果的にフィルタリングする必要がある。
既存の微調整手法は、通常、事前に定義されたポリシーの条件予測を行う。
本稿では、入力に類似した先行データポイントの推論過程である「先行情報」に対する条件モデルの判断を提案する。
- 参考スコア(独自算出の注目度): 55.63757336900865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A multi-modal guardrail must effectively filter image content based on user-defined policies, identifying material that may be hateful, reinforce harmful stereotypes, contain explicit material, or spread misinformation. Deploying such guardrails in real-world applications, however, poses significant challenges. Users often require varied and highly customizable policies and typically cannot provide abundant examples for each custom policy. Consequently, an ideal guardrail should be scalable to the multiple policies and adaptable to evolving user standards with minimal retraining. Existing fine-tuning methods typically condition predictions on pre-defined policies, restricting their generalizability to new policies or necessitating extensive retraining to adapt. Conversely, training-free methods struggle with limited context lengths, making it difficult to incorporate all the policies comprehensively. To overcome these limitations, we propose to condition model's judgment on "precedents", which are the reasoning processes of prior data points similar to the given input. By leveraging precedents instead of fixed policies, our approach greatly enhances the flexibility and adaptability of the guardrail. In this paper, we introduce a critique-revise mechanism for collecting high-quality precedents and two strategies that utilize precedents for robust prediction. Experimental results demonstrate that our approach outperforms previous methods across both few-shot and full-dataset scenarios and exhibits superior generalization to novel policies.
- Abstract(参考訳): マルチモーダルガードレールは、ユーザーが定義したポリシーに基づいて画像コンテンツを効果的にフィルタリングし、有害なステレオタイプを補強したり、明示的な材料を含むり、誤情報を広げたりすることができる。
しかし、現実世界のアプリケーションにそのようなガードレールを配置することは、大きな課題となる。
ユーザーは多様かつ高度にカスタマイズ可能なポリシーを必要とすることが多く、通常、それぞれのカスタムポリシーに対して豊富な例を提供することはできない。
したがって、理想的なガードレールは、複数のポリシーにスケーラブルで、最小限の再トレーニングで進化するユーザ標準に適応できなければならない。
既存の微調整手法は、通常、事前に定義されたポリシーを条件付きで予測し、新しいポリシーへの一般化性を制限するか、適応するために広範囲な再訓練を必要とする。
逆に、トレーニングフリーな手法はコンテキスト長が限られているため、すべてのポリシーを包括的に組み込むのが難しくなる。
これらの制約を克服するために、入力に類似した先行データポイントの推論プロセスである「先行データ」に関する条件モデルの判断を提案する。
固定ポリシーの代わりに先例を活用することで、当社のアプローチはガードレールの柔軟性と適応性を大幅に向上させる。
本稿では,高品質な前例を収集するための批判的修正機構と,ロバストな予測のための前例を利用する2つの戦略を紹介する。
実験結果から,本手法は,ショットシナリオとフルデータセットシナリオの両方において,従来の手法よりも優れ,新規ポリシーよりも優れた一般化を示すことが示された。
関連論文リスト
- EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Local Policy Improvement for Recommender Systems [8.617221361305901]
我々は、以前デプロイされたポリシーから収集されたデータをもとに、新しいポリシーをトレーニングする方法を示す。
我々は,地方政策改善の代替策として,非政治的是正を伴わないアプローチを提案する。
この局所的な政策改善パラダイムはレコメンデーションシステムに理想的であり、以前の方針は一般的に適切な品質であり、ポリシーは頻繁に更新される。
論文 参考訳(メタデータ) (2022-12-22T00:47:40Z) - Reliable Decision from Multiple Subtasks through Threshold Optimization:
Content Moderation in the Wild [7.176020195419459]
ソーシャルメディアプラットフォームは、コンテンツモデレーションを通じて有害なコンテンツからユーザーを守るのに苦労している。
これらのプラットフォームは最近、大量のユーザー生成コンテンツに毎日対処するために機械学習モデルを活用している。
サードパーティーのコンテンツモデレーションサービスは、未成年者の存在、失礼なジェスチャー、武器など、複数のサブタスクの予測スコアを提供する。
本稿では,複数のサブタスクの最適しきい値を探索し,信頼性の高いモデレーション決定をコスト効率よく行うための,シンプルで効果的なしきい値最適化手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T03:51:43Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。