論文の概要: Anecdoctoring: Automated Red-Teaming Across Language and Place
- arxiv url: http://arxiv.org/abs/2509.19143v1
- Date: Tue, 23 Sep 2025 15:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.924186
- Title: Anecdoctoring: Automated Red-Teaming Across Language and Place
- Title(参考訳): Anecdoctoring: 言語と場所をまたいだチーム自動化
- Authors: Alejandro Cuevas, Saloni Dash, Bharat Kumar Nayak, Dan Vann, Madeleine I. G. Daepp,
- Abstract要約: anecdoctoring"は、言語や文化にまたがる敵対的なプロンプトを自動的に生成する、新しい赤チーム方式である。
ファクトチェックのウェブサイトから3つの言語と2つの地理で誤情報クレームを収集する。
本手法は攻撃成功率を高くし,解釈可能性の利点を提供する。
- 参考スコア(独自算出の注目度): 38.8362654856964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disinformation is among the top risks of generative artificial intelligence (AI) misuse. Global adoption of generative AI necessitates red-teaming evaluations (i.e., systematic adversarial probing) that are robust across diverse languages and cultures, but red-teaming datasets are commonly US- and English-centric. To address this gap, we propose "anecdoctoring", a novel red-teaming approach that automatically generates adversarial prompts across languages and cultures. We collect misinformation claims from fact-checking websites in three languages (English, Spanish, and Hindi) and two geographies (US and India). We then cluster individual claims into broader narratives and characterize the resulting clusters with knowledge graphs, with which we augment an attacker LLM. Our method produces higher attack success rates and offers interpretability benefits relative to few-shot prompting. Results underscore the need for disinformation mitigations that scale globally and are grounded in real-world adversarial misuse.
- Abstract(参考訳): 偽情報は、生成的人工知能(AI)の誤用の最大のリスクの一つである。
生成的AIのグローバルな採用は、さまざまな言語や文化で堅牢なレッドチーム評価(つまり、体系的な敵対的調査)を必要とするが、レッドチームデータセットは一般的に米国と英語中心である。
このギャップに対処するため,言語や文化にまたがる対立的なプロンプトを自動的に生成する,新しい赤チーム方式である"anecdoctoring"を提案する。
我々はファクトチェックのウェブサイトから3つの言語(英語、スペイン語、ヒンディー語)と2つの地理(米国とインド)で誤情報クレームを収集する。
次に、個別のクレームをより広範な物語に分類し、その結果のクラスタを知識グラフで特徴づけ、攻撃者のLSMを強化します。
本手法は, 攻撃成功率を高くし, 数発のプロンプトに対して, 解釈可能性の利点を提供する。
結果は、世界規模でスケールし、現実世界の敵の誤用に根ざした偽情報緩和の必要性を浮き彫りにしている。
関連論文リスト
- Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages [13.011117871938561]
AIによるモデレーションシステムは、Global Southで話されている低リソース言語と競合する。
調査の結果,データ不足に加えて,IT企業によるユーザデータの独占といった社会的政治的要因が,歴史的不平等を悪化させることが明らかとなった。
これらの制限は、単に「データ不足」によって引き起こされる技術的なギャップであるだけでなく、非西洋語の植民地的抑圧に根ざした構造的不平等を反映している、と我々は主張する。
論文 参考訳(メタデータ) (2025-01-23T17:01:53Z) - Against The Achilles' Heel: A Survey on Red Teaming for Generative Models [60.21722603260243]
120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。
我々は、様々な自動レッドチーム化アプローチを統合するために、"searcher"フレームワークを開発した。
論文 参考訳(メタデータ) (2024-03-31T09:50:39Z) - Towards Red Teaming in Multimodal and Multilingual Translation [7.440772334845366]
本稿では,機械翻訳のための人間によるレッド・チーム化に関する最初の研究について述べる。
これは翻訳モデルの性能を理解し改善するための重要なステップである。
我々は、学習した教訓を報告し、翻訳モデルとレッドチームドリルの両方に推奨する。
論文 参考訳(メタデータ) (2024-01-29T15:49:40Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors,
and Lessons Learned [10.836210010868932]
3つのモデルサイズ(2.7B, 13B, 52Bパラメータ)と4つのモデルタイプにまたがるレッド・チームリングのスケーリング挙動について検討した。
私たちは38,961人のレッドチームによる攻撃のデータセットをリリースし、他者が分析し、そこから学びます。
論文 参考訳(メタデータ) (2022-08-23T23:37:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。