Fugu-MT 論文翻訳(概要): STAR: SocioTechnical Approach to Red Teaming Language Models

論文の概要: STAR: SocioTechnical Approach to Red Teaming Language Models

arxiv url: http://arxiv.org/abs/2406.11757v4
Date: Wed, 23 Oct 2024 16:41:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.757159
Title: STAR: SocioTechnical Approach to Red Teaming Language Models
Title（参考訳）: STAR: レッドチーム言語モデルに対する社会技術的アプローチ
Authors: Laura Weidinger, John Mellor, Bernat Guillen Pegueroles, Nahema Marchal, Ravin Kumar, Kristian Lum, Canfer Akbulut, Mark Diaz, Stevie Bergman, Mikel Rodriguez, Verena Rieser, William Isaac,
Abstract要約: STARは、大きな言語モデルの赤いチーム安全性のための現在のベストプラクティスを改善する社会技術フレームワークである。これは、人間のレッドチームのためにパラメータ化された命令を生成することで、ステアビリティを高め、リスク表面のカバレッジを改善する。特定のグループに対する害を評価するために、人口統計と一致させることで信号品質を改善し、より敏感なアノテーションをもたらす。
参考スコア（独自算出の注目度）: 8.119868711129898
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research introduces STAR, a sociotechnical framework that improves on current best practices for red teaming safety of large language models. STAR makes two key contributions: it enhances steerability by generating parameterised instructions for human red teamers, leading to improved coverage of the risk surface. Parameterised instructions also provide more detailed insights into model failures at no increased cost. Second, STAR improves signal quality by matching demographics to assess harms for specific groups, resulting in more sensitive annotations. STAR further employs a novel step of arbitration to leverage diverse viewpoints and improve label reliability, treating disagreement not as noise but as a valuable contribution to signal quality.
Abstract（参考訳）: 本研究は,大規模言語モデルのレッド・チーム・セーフ化に向けた現在のベストプラクティスを改善するための社会技術フレームワークSTARを紹介する。 STARは、人間のレッドチームのためにパラメータ化された命令を生成することによって、ステアビリティを高めることで、リスクサーフェスのカバレッジを向上する。パラメータ化された命令はまた、コストの上昇なしにモデル失敗に関するより詳細な洞察を提供する。第2に、STARは、特定のグループに対する害を評価するために、人口層をマッチングすることで信号品質を改善し、より敏感なアノテーションをもたらす。 STARはさらに、多様な視点を活用し、ラベルの信頼性を向上させるための新たな調停のステップを採用し、不一致をノイズとしてではなく、信号品質への価値ある貢献として扱う。

関連論文リスト

T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。 mathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)$ Optimization frameworkを紹介します。 SEASはイニシアティブ、アタック、アドバーサの3段階を繰り返す。
論文参考訳（メタデータ） (2024-08-05T16:55:06Z)
Improving Reward Models with Synthetic Critiques [20.180933963110814]
リワードモデル(RM)は、人間のフィードバックからの強化学習を通じて言語モデルを整合させる上で重要な役割を担っている。本稿では,大規模言語モデルが生成する合成自然言語批判を用いて,新たなフィードバックを提供する手法を提案する。本研究では,異なる事前学習モデルによるRMの性能とデータ効率の向上を実証する。
論文参考訳（メタデータ） (2024-05-31T14:33:07Z)
DiveR-CT: Diversity-enhanced Red Teaming with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文参考訳（メタデータ） (2024-05-29T12:12:09Z)
Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。 STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文参考訳（メタデータ） (2024-05-23T04:27:11Z)
Benchmark Early and Red Team Often: A Framework for Assessing and Managing Dual-Use Hazards of AI Foundation Models [0.2383122657918106]
最先端または「最先端」のAI基盤モデルに対する懸念は、敵が化学、生物学的、放射線学的、核、サイバー、その他の攻撃に備えるためにモデルを使用する可能性があることである。少なくとも2つの手法は、潜在的な二重利用能力を持つ基礎モデルを特定することができる。オープンベンチマークとクローズドレッドチーム評価の両方を含む手法を組み合わせた研究・リスク管理手法を提案する。
論文参考訳（メタデータ） (2024-05-15T20:28:15Z)
Towards Red Teaming in Multimodal and Multilingual Translation [7.440772334845366]
本稿では,機械翻訳のための人間によるレッド・チーム化に関する最初の研究について述べる。これは翻訳モデルの性能を理解し改善するための重要なステップである。我々は、学習した教訓を報告し、翻訳モデルとレッドチームドリルの両方に推奨する。
論文参考訳（メタデータ） (2024-01-29T15:49:40Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
AART: AI-Assisted Red-Teaming with Diverse Data Generation for New LLM-powered Applications [5.465142671132731]
大規模言語モデル(LLM)のアドバイザリテストは、安全で責任のあるデプロイメントに不可欠である。本稿では,新しい下流アプリケーション上でのLCM生成の安全性をテストするために,逆評価データセットの自動生成のための新しいアプローチを提案する。 AI支援のレッドチーム(AART)と呼ばれています。
論文参考訳（メタデータ） (2023-11-14T23:28:23Z)
Extrapolating Multilingual Understanding Models as Multilingual Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文参考訳（メタデータ） (2023-05-22T15:33:21Z)
Entity-Conditioned Question Generation for Robust Attention Distribution in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文参考訳（メタデータ） (2022-04-24T22:36:48Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。