論文の概要: Robust Persona-Aware Toxicity Detection with Prompt Optimization and Learned Ensembling
- arxiv url: http://arxiv.org/abs/2601.02337v1
- Date: Mon, 05 Jan 2026 18:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.355303
- Title: Robust Persona-Aware Toxicity Detection with Prompt Optimization and Learned Ensembling
- Title(参考訳): プロンプト最適化と学習によるロバストペルソナの毒性検出
- Authors: Berk Atil, Rebecca J. Passonneau, Ninareh Mehrabi,
- Abstract要約: 毒性の検出は本質的に主観的であり、多様な視点と異なる人口集団の社会的先行によって形成される。
現在のLarge Language Model (LLM) のプロンプト技術は、異なるペルソナとベースモデルで異なる結果が得られる。
そこで本研究では,4ビットベクトル上のSVMを高速なメタアンサンブルとして提案する。
- 参考スコア(独自算出の注目度): 6.038385461314376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxicity detection is inherently subjective, shaped by the diverse perspectives and social priors of different demographic groups. While ``pluralistic'' modeling as used in economics and the social sciences aims to capture perspective differences across contexts, current Large Language Model (LLM) prompting techniques have different results across different personas and base models. In this work, we conduct a systematic evaluation of persona-aware toxicity detection, showing that no single prompting method, including our proposed automated prompt optimization strategy, uniformly dominates across all model-persona pairs. To exploit complementary errors, we explore ensembling four prompting variants and propose a lightweight meta-ensemble: an SVM over the 4-bit vector of prompt predictions. Our results demonstrate that the proposed SVM ensemble consistently outperforms individual prompting methods and traditional majority-voting techniques, achieving the strongest overall performance across diverse personas. This work provides one of the first systematic comparisons of persona-conditioned prompting for toxicity detection and offers a robust method for pluralistic evaluation in subjective NLP tasks.
- Abstract(参考訳): 毒性の検出は本質的に主観的であり、多様な視点と異なる人口集団の社会的先行によって形成される。
経済学や社会科学において「多言語的」なモデリングは、状況によって視点の違いを捉えることを目的としているが、現在のLarge Language Model(LLM)は、異なるペルソナとベースモデルで異なる結果をもたらす。
本研究では,提案手法を含む1つのプロンプト法が,モデルとパーソナのペア全体にわたって一様に支配されることを実証し,ペルソナの毒性検出を体系的に評価する。
相補的誤りを生かして4つのプロンプト変種をアンサンブルし,4ビットベクトル上の4ビットベクトル上の軽量なメタアンサンブルを提案する。
この結果から,提案したSVMアンサンブルは,個別のプロンプト手法や従来の多数決投票手法より一貫して優れており,多様なペルソナにおいて最も優れた総合的なパフォーマンスを達成できることが示された。
本研究は,有毒度検出のためのペルソナ条件付きプロンプトを初めて体系的に比較し,主観的NLPタスクにおける多元性評価のためのロバストな手法を提供する。
関連論文リスト
- Unlearning Comparator: A Visual Analytics System for Comparative Evaluation of Machine Unlearning Methods [23.6050988823262]
Machine Unlearning(MU)は、トレーニングされたモデルからターゲットトレーニングデータを削除して、削除されたデータがモデルの振る舞いにもはや影響を与えないようにすることを目的としている。
しかし、この急速に発展する分野の研究者たちは、異なるMUメソッドの振る舞いを分析し、理解する上で困難に直面している。
MU手法の体系的評価を容易にするために,視覚解析システムUnlearning Comparatorを導入する。
論文 参考訳(メタデータ) (2025-08-18T08:53:53Z) - Perspectives in Play: A Multi-Perspective Approach for More Inclusive NLP Systems [3.011820285006942]
本研究では,視点認識モデルの開発を促進するために,ソフトラベルを用いた新しい多視点アプローチを提案する。
我々は、ヘイトスピーチ、皮肉、虐待言語、スタンス検出など、多様な主観的テキスト分類タスクの分析を行う。
結果は、Jensen-Shannon Divergence (JSD) が測定したように、マルチパースペクティブアプローチが人間のラベル分布をよりよく近似していることを示している。
本手法は,本文の主観性に起因して,皮肉や姿勢検出などの課題に対する信頼度を低下させる。
論文 参考訳(メタデータ) (2025-06-25T07:53:36Z) - Adaptive Prompting: Ad-hoc Prompt Composition for Social Bias Detection [30.836788377666]
本稿では,与えられた入力に対する最適プロンプト合成アドホックを予測する適応的プロンプト手法を提案する。
我々は,意味的理解を必要とする文脈に依存した社会的偏見検出にアプローチを適用した。
我々の手法は高い検出性能を確実に保証し、いくつかの設定で最善である。
論文 参考訳(メタデータ) (2025-02-10T14:06:19Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models [19.32035955420203]
我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。
人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
論文 参考訳(メタデータ) (2023-12-07T06:53:55Z) - Exploiting Meta-Cognitive Features for a Machine-Learning-Based One-Shot
Group-Decision Aggregation [0.7340017786387767]
信頼に基づく手法のようなメタ認知情報に依存する手法は、様々なタスクにおいて改善された。
本研究の目的は,メタ認知情報を活用し,そこから学習することである。
論文 参考訳(メタデータ) (2022-01-20T15:56:18Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。