論文の概要: Red Teaming LLMs as Socio-Technical Practice: From Exploration and Data Creation to Evaluation
- arxiv url: http://arxiv.org/abs/2602.18483v1
- Date: Tue, 10 Feb 2026 20:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.611244
- Title: Red Teaming LLMs as Socio-Technical Practice: From Exploration and Data Creation to Evaluation
- Title(参考訳): 社会技術的実践としてのLLMのレッドチーム:探索とデータ創造から評価へ
- Authors: Adriana Alvarado Garcia, Ruyuan Wan, Ozioma C. Oguine, Karla Badillo-Urquiola,
- Abstract要約: この作業を支えるデータプラクティスと標準について検討する。
敵対的データセットはモデル評価のスコープと精度を決定するため、大きな言語モデルから潜在的損害を評価するための重要な人工物である。
- 参考スコア(独自算出の注目度): 7.4922225493924826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, red teaming, with roots in security, has become a key evaluative approach to ensure the safety and reliability of Generative Artificial Intelligence. However, most existing work emphasizes technical benchmarks and attack success rates, leaving the socio-technical practices of how red teaming datasets are defined, created, and evaluated under-examined. Drawing on 22 interviews with practitioners who design and evaluate red teaming datasets, we examine the data practices and standards that underpin this work. Because adversarial datasets determine the scope and accuracy of model evaluations, they are critical artifacts for assessing potential harms from large language models. Our contributions are first, empirical evidence of practitioners conceptualizing red teaming and developing and evaluating red teaming datasets. Second, we reflect on how practitioners' conceptualization of risk leads to overlooking the context, interaction type, and user specificity. We conclude with three opportunities for HCI researchers to expand the conceptualization and data practices for red-teaming.
- Abstract(参考訳): 近年、セキュリティのルーツを持つレッド・チームリングは、ジェネレーティブ・人工知能の安全性と信頼性を確保するための重要な評価手法となっている。
しかしながら、既存のほとんどの研究は、技術的ベンチマークとアタック成功率を強調しており、レッドチームデータセットの定義、作成、評価を過小評価する社会技術的プラクティスを残している。
レッド・チーム・データセットを設計・評価する実践者に対して22回のインタビューを行い、この作業の基盤となるデータプラクティスと標準について検討した。
敵対的データセットはモデル評価のスコープと精度を決定するため、大きな言語モデルから潜在的損害を評価するための重要な人工物である。
私たちのコントリビューションは、レッドチームのデータセットを概念化し、開発し、評価する実践者の、最初の経験的な証拠です。
第2に,実践者のリスク概念化がコンテキスト,インタラクションタイプ,ユーザ特異性を見落としている点について考察する。
我々は、HCI研究者が赤チームの概念化とデータプラクティスを拡大する3つの機会を結論付けている。
関連論文リスト
- ConceptScope: Characterizing Dataset Bias via Disentangled Visual Concepts [54.60525564599342]
ConceptScopeは、ビジュアルデータセットを分析するためのスケーラブルで自動化されたフレームワークである。
概念を、その意味的関連性とクラスラベルとの統計的相関に基づいて、ターゲット、コンテキスト、バイアスタイプに分類する。
既知のバイアスを確実に検出し、未発表のバイアスを発見できる。
論文 参考訳(メタデータ) (2025-10-30T06:46:17Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - An LLM-based multi-agent framework for agile effort estimation [11.458115351010699]
チームがプロダクトバックログでユーザストーリーを完成させるのに必要な労力を共同でレビューし、議論し、見積もりする。
アジャイルの取り組み見積の現在のプラクティスは、主観的な評価に大きく依存しており、見積もりの不正確さと矛盾につながります。
我々は、アジャイル見積もりのための新しいマルチエージェントフレームワークを提案する。これは見積もりを生成できるだけでなく、人間開発者や他のエージェントと協調し、コミュニケーションし、議論することで合意に達することができる。
論文 参考訳(メタデータ) (2025-09-17T23:26:43Z) - Societal Impacts Research Requires Benchmarks for Creative Composition Tasks [10.67427286900562]
このポジションペーパーは、創造的な構成タスクに焦点を当てたベンチマークが、AI生成コンテンツの社会的害を理解するための必要なステップであると主張している。
我々は、創造的な構成タスクを、日常的な創造性を必要とする個人的タスクの助けを求める一般的な利用カテゴリとして特定する。
我々は、創造性のあるモデルの発展と影響を効果的に測定できる新しいベンチマークの開発を知らせるために、使用パターンの透明性を高めることを求めている。
論文 参考訳(メタデータ) (2025-04-09T03:12:16Z) - Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective [111.58315434849047]
ニューラルネットワーク検索モデル(IR)モデルの堅牢性は、大きな注目を集めている。
我々は、IRの堅牢性を多面的概念とみなし、敵攻撃、アウト・オブ・ディストリビューション(OOD)シナリオ、パフォーマンスのばらつきに対してその必要性を強調している。
我々は,既存の手法,データセット,評価指標について詳細な議論を行い,大規模言語モデルの時代における課題や今後の方向性に光を当てる。
論文 参考訳(メタデータ) (2024-07-09T16:07:01Z) - Benchmark Early and Red Team Often: A Framework for Assessing and Managing Dual-Use Hazards of AI Foundation Models [0.2383122657918106]
最先端または「最先端」のAI基盤モデルに対する懸念は、敵が化学、生物学的、放射線学的、核、サイバー、その他の攻撃に備えるためにモデルを使用する可能性があることである。
少なくとも2つの手法は、潜在的な二重利用能力を持つ基礎モデルを特定することができる。
オープンベンチマークとクローズドレッドチーム評価の両方を含む手法を組み合わせた研究・リスク管理手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T20:28:15Z) - Towards Red Teaming in Multimodal and Multilingual Translation [7.440772334845366]
本稿では,機械翻訳のための人間によるレッド・チーム化に関する最初の研究について述べる。
これは翻訳モデルの性能を理解し改善するための重要なステップである。
我々は、学習した教訓を報告し、翻訳モデルとレッドチームドリルの両方に推奨する。
論文 参考訳(メタデータ) (2024-01-29T15:49:40Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - A Sentiment Analysis Dataset for Trustworthiness Evaluation [22.734197353027632]
深層学習モデルはブラックボックス問題のために信頼できないとしばしば批判される。
我々は、頑健さと解釈可能性を評価するために、新しくよく注釈付けされた感情分析データセットをリリースする。
論文 参考訳(メタデータ) (2021-08-30T11:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。