論文の概要: STAR: SocioTechnical Approach to Red Teaming Language Models
- arxiv url: http://arxiv.org/abs/2406.11757v4
- Date: Wed, 23 Oct 2024 16:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:54:14.423612
- Title: STAR: SocioTechnical Approach to Red Teaming Language Models
- Title(参考訳): STAR: レッドチーム言語モデルに対する社会技術的アプローチ
- Authors: Laura Weidinger, John Mellor, Bernat Guillen Pegueroles, Nahema Marchal, Ravin Kumar, Kristian Lum, Canfer Akbulut, Mark Diaz, Stevie Bergman, Mikel Rodriguez, Verena Rieser, William Isaac,
- Abstract要約: STARは、大きな言語モデルの赤いチーム安全性のための現在のベストプラクティスを改善する社会技術フレームワークである。
これは、人間のレッドチームのためにパラメータ化された命令を生成することで、ステアビリティを高め、リスク表面のカバレッジを改善する。
特定のグループに対する害を評価するために、人口統計と一致させることで信号品質を改善し、より敏感なアノテーションをもたらす。
- 参考スコア(独自算出の注目度): 8.119868711129898
- License:
- Abstract: This research introduces STAR, a sociotechnical framework that improves on current best practices for red teaming safety of large language models. STAR makes two key contributions: it enhances steerability by generating parameterised instructions for human red teamers, leading to improved coverage of the risk surface. Parameterised instructions also provide more detailed insights into model failures at no increased cost. Second, STAR improves signal quality by matching demographics to assess harms for specific groups, resulting in more sensitive annotations. STAR further employs a novel step of arbitration to leverage diverse viewpoints and improve label reliability, treating disagreement not as noise but as a valuable contribution to signal quality.
- Abstract(参考訳): 本研究は,大規模言語モデルのレッド・チーム・セーフ化に向けた現在のベストプラクティスを改善するための社会技術フレームワークSTARを紹介する。
STARは、人間のレッドチームのためにパラメータ化された命令を生成することによって、ステアビリティを高めることで、リスクサーフェスのカバレッジを向上する。
パラメータ化された命令はまた、コストの上昇なしにモデル失敗に関するより詳細な洞察を提供する。
第2に、STARは、特定のグループに対する害を評価するために、人口層をマッチングすることで信号品質を改善し、より敏感なアノテーションをもたらす。
STARはさらに、多様な視点を活用し、ラベルの信頼性を向上させるための新たな調停のステップを採用し、不一致をノイズとしてではなく、信号品質への価値ある貢献として扱う。
関連論文リスト
- SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。
これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。
mathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)$ Optimization frameworkを紹介します。
SEASはイニシアティブ、アタック、アドバーサの3段階を繰り返す。
論文 参考訳(メタデータ) (2024-08-05T16:55:06Z) - Improving Reward Models with Synthetic Critiques [20.180933963110814]
リワードモデル(RM)は、人間のフィードバックからの強化学習を通じて言語モデルを整合させる上で重要な役割を担っている。
本稿では,大規模言語モデルが生成する合成自然言語批判を用いて,新たなフィードバックを提供する手法を提案する。
本研究では,異なる事前学習モデルによるRMの性能とデータ効率の向上を実証する。
論文 参考訳(メタデータ) (2024-05-31T14:33:07Z) - DiveR-CT: Diversity-enhanced Red Teaming with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Benchmark Early and Red Team Often: A Framework for Assessing and Managing Dual-Use Hazards of AI Foundation Models [0.2383122657918106]
最先端または「最先端」のAI基盤モデルに対する懸念は、敵が化学、生物学的、放射線学的、核、サイバー、その他の攻撃に備えるためにモデルを使用する可能性があることである。
少なくとも2つの手法は、潜在的な二重利用能力を持つ基礎モデルを特定することができる。
オープンベンチマークとクローズドレッドチーム評価の両方を含む手法を組み合わせた研究・リスク管理手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T20:28:15Z) - Towards Red Teaming in Multimodal and Multilingual Translation [7.440772334845366]
本稿では,機械翻訳のための人間によるレッド・チーム化に関する最初の研究について述べる。
これは翻訳モデルの性能を理解し改善するための重要なステップである。
我々は、学習した教訓を報告し、翻訳モデルとレッドチームドリルの両方に推奨する。
論文 参考訳(メタデータ) (2024-01-29T15:49:40Z) - AART: AI-Assisted Red-Teaming with Diverse Data Generation for New
LLM-powered Applications [5.465142671132731]
大規模言語モデル(LLM)のアドバイザリテストは、安全で責任のあるデプロイメントに不可欠である。
本稿では,新しい下流アプリケーション上でのLCM生成の安全性をテストするために,逆評価データセットの自動生成のための新しいアプローチを提案する。
AI支援のレッドチーム(AART)と呼ばれています。
論文 参考訳(メタデータ) (2023-11-14T23:28:23Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。