論文の概要: Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios
- arxiv url: http://arxiv.org/abs/2410.11114v1
- Date: Mon, 14 Oct 2024 21:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:51.029166
- Title: Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios
- Title(参考訳): 安全批判シナリオにおけるロバストおよび代表LLM生成のアクティブラーニング
- Authors: Sabit Hassan, Anthony Sicilia, Malihe Alikhani,
- Abstract要約: 大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。
LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。
この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
- 参考スコア(独自算出の注目度): 32.16984263644299
- License:
- Abstract: Ensuring robust safety measures across a wide range of scenarios is crucial for user-facing systems. While Large Language Models (LLMs) can generate valuable data for safety measures, they often exhibit distributional biases, focusing on common scenarios and neglecting rare but critical cases. This can undermine the effectiveness of safety protocols developed using such data. To address this, we propose a novel framework that integrates active learning with clustering to guide LLM generation, enhancing their representativeness and robustness in safety scenarios. We demonstrate the effectiveness of our approach by constructing a dataset of 5.4K potential safety violations through an iterative process involving LLM generation and an active learner model's feedback. Our results show that the proposed framework produces a more representative set of safety scenarios without requiring prior knowledge of the underlying data distribution. Additionally, data acquired through our method improves the accuracy and F1 score of both the active learner model as well models outside the scope of active learning process, highlighting its broad applicability.
- Abstract(参考訳): 幅広いシナリオで堅牢な安全性を確保することは、ユーザ対応システムにとって非常に重要です。
LLM(Large Language Models)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示し、一般的なシナリオに注目し、まれだが重要なケースを無視する。
このようなデータを用いて開発された安全プロトコルの有効性を損なう可能性がある。
そこで本稿では,LLM生成のガイドとして,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。
LLM生成とアクティブラーナーモデルのフィードバックを含む反復的なプロセスを通じて,5.4Kの潜在的な安全違反のデータセットを構築することで,本手法の有効性を実証する。
この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
さらに,本手法により得られたデータにより,アクティブラーニングモデルと,アクティブラーニングプロセスの範囲外のモデルの両方の精度とF1スコアが向上し,その適用可能性の向上が図られた。
関連論文リスト
- Model Developmental Safety: A Safety-Centric Method and Applications in Vision-Language Models [75.8161094916476]
本稿では,既存の画像分類能力向上のために,事前学習された視覚言語モデル(別名CLIPモデル)の開発方法について検討する。
自律走行とシーン認識データセットにおける視覚知覚能力の向上に関する実験は,提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2024-10-04T22:34:58Z) - Towards Inference-time Category-wise Safety Steering for Large Language Models [3.712541089289745]
大規模言語モデル(LLM)は、様々なユースケースで機能や応用が前例のない進歩を遂げている。
LLMの脆弱な性質は、トレーニングなしの推論時間法による追加の安全ステアリングステップを保証している。
本稿では,近年の推論時安全ステアリング作業と異なり,カテゴリー別ステアリングベクトルを用いたLCM出力の安全ステアリングについて検討する。
論文 参考訳(メタデータ) (2024-10-02T02:02:06Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints [0.0]
マルチエージェント強化学習パラダイムに拡散モデルを統合する革新的なフレームワークを導入する。
このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
論文 参考訳(メタデータ) (2024-06-30T16:05:31Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Safety-Critical Scenario Generation Via Reinforcement Learning Based
Editing [20.99962858782196]
本稿では,逐次編集による安全クリティカルなシナリオを生成する深層強化学習手法を提案する。
我々のフレームワークは、リスクと妥当性の両方の目的からなる報酬関数を用いています。
提案手法は, 従来手法と比較して, 品質の高い安全クリティカルなシナリオを生成することを示す。
論文 参考訳(メタデータ) (2023-06-25T05:15:25Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。