論文の概要: Lattice: Generative Guardrails for Conversational Agents
- arxiv url: http://arxiv.org/abs/2601.17481v1
- Date: Sat, 24 Jan 2026 15:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.808731
- Title: Lattice: Generative Guardrails for Conversational Agents
- Title(参考訳): Lattice: 会話エージェントのための生成ガードレール
- Authors: Emily Broadhurst, Tawab Safi, Joseph Edell, Vashisht Ganesh, Karime Maamari,
- Abstract要約: 会話型AIシステムは有害な出力を防ぐためにガードレールを必要とする。
既存のアプローチでは、新たな脅威やデプロイメントコンテキストに適応できない静的ルールを使用している。
ガードレールの自己構築と継続的な改善のためのフレームワークであるLatticeを紹介した。
- 参考スコア(独自算出の注目度): 1.5658704610960574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational AI systems require guardrails to prevent harmful outputs, yet existing approaches use static rules that cannot adapt to new threats or deployment contexts. We introduce Lattice, a framework for self-constructing and continuously improving guardrails. Lattice operates in two stages: construction builds initial guardrails from labeled examples through iterative simulation and optimization; continuous improvement autonomously adapts deployed guardrails through risk assessment, adversarial testing, and consolidation. Evaluated on the ProsocialDialog dataset, Lattice achieves 91% F1 on held-out data, outperforming keyword baselines by 43pp, LlamaGuard by 25pp, and NeMo by 4pp. The continuous improvement stage achieves 7pp F1 improvement on cross-domain data through closed-loop optimization. Our framework shows that effective guardrails can be self-constructed through iterative optimization.
- Abstract(参考訳): 会話型AIシステムは有害なアウトプットを防ぐためにガードレールを必要とするが、既存のアプローチでは、新たな脅威やデプロイメントコンテキストに適応できない静的ルールを使用している。
ガードレールの自己構築と継続的な改善のためのフレームワークであるLatticeを紹介した。
Latticeは、反復的なシミュレーションと最適化を通じてラベル付き例から初期ガードレールを構築すること、継続的改善はリスク評価、敵の試験、統合を通じて展開されたガードレールを自律的に適応させることである。
ProsocialDialogデータセットに基づいて評価すると、Latticeはホールドアウトデータで91%のF1を達成し、キーワードベースラインは43pp、LlamaGuardは25pp、NeMoは4ppである。
連続的な改善段階は、クローズドループ最適化により、クロスドメインデータの7pp F1改善を実現する。
本フレームワークは,効率的なガードレールを反復最適化により自己構築可能であることを示す。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Improving Continual Pre-training Through Seamless Data Packing [34.13195340154738]
本稿では,文脈情報をより効果的に保存し,モデル性能を向上させることを目的とした新しいデータパッキング戦略を提案する。
提案手法では,第1段階において連続列間の重なり合うトークンを同期するスライディングウインドウ手法を用いる。
第2段階では、短いテキストをターゲットのシーケンス長よりもわずかに大きいビンに詰め込むために、第1のFit-Decreasingアルゴリズムを採用し、パディングとトランケーションを最小化する。
論文 参考訳(メタデータ) (2025-05-28T06:30:37Z) - Unified Multi-Task Learning & Model Fusion for Efficient Language Model Guardrailing [7.959705237659548]
タスク固有のデータ生成は、微調整による分類に繋がることを示す。
単一のモデルであるtexttMultiTaskGuardを使用して、大規模な合成生成データセットで事前トレーニングすることで、一般化が改善される。
我々の最もパフォーマンスの高いモデルである textttUniGuard は、提案した検索ベースのモデルマージアプローチを用いて見つける。
論文 参考訳(メタデータ) (2025-04-27T19:07:58Z) - PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing [1.474945380093949]
推論時ガードレール(ITG)は、モデルの出力分布をコンプライアンスにシフトするソリューションを提供する。
現在の手法は安全性と利便性のバランスをとるのに苦労している。
構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
論文 参考訳(メタデータ) (2024-07-23T09:14:27Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Continual Model-based Reinforcement Learning for Data Efficient Wireless Network Optimisation [73.04087903322237]
制御ポリシの継続強化学習としてスループット最適化を定式化する。
シミュレーションの結果,提案システムでは,エンド・ツー・エンドのデプロイメントのリードタイムを2倍に短縮できることがわかった。
論文 参考訳(メタデータ) (2024-04-30T11:23:31Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。