論文の概要: Robust Persona-Aware Toxicity Detection with Prompt Optimization and Learned Ensembling
- arxiv url: http://arxiv.org/abs/2601.02337v1
- Date: Mon, 05 Jan 2026 18:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.355303
- Title: Robust Persona-Aware Toxicity Detection with Prompt Optimization and Learned Ensembling
- Title(参考訳): プロンプト最適化と学習によるロバストペルソナの毒性検出
- Authors: Berk Atil, Rebecca J. Passonneau, Ninareh Mehrabi,
- Abstract要約: 毒性の検出は本質的に主観的であり、多様な視点と異なる人口集団の社会的先行によって形成される。
現在のLarge Language Model (LLM) のプロンプト技術は、異なるペルソナとベースモデルで異なる結果が得られる。
そこで本研究では,4ビットベクトル上のSVMを高速なメタアンサンブルとして提案する。
- 参考スコア(独自算出の注目度): 6.038385461314376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxicity detection is inherently subjective, shaped by the diverse perspectives and social priors of different demographic groups. While ``pluralistic'' modeling as used in economics and the social sciences aims to capture perspective differences across contexts, current Large Language Model (LLM) prompting techniques have different results across different personas and base models. In this work, we conduct a systematic evaluation of persona-aware toxicity detection, showing that no single prompting method, including our proposed automated prompt optimization strategy, uniformly dominates across all model-persona pairs. To exploit complementary errors, we explore ensembling four prompting variants and propose a lightweight meta-ensemble: an SVM over the 4-bit vector of prompt predictions. Our results demonstrate that the proposed SVM ensemble consistently outperforms individual prompting methods and traditional majority-voting techniques, achieving the strongest overall performance across diverse personas. This work provides one of the first systematic comparisons of persona-conditioned prompting for toxicity detection and offers a robust method for pluralistic evaluation in subjective NLP tasks.
- Abstract(参考訳): 毒性の検出は本質的に主観的であり、多様な視点と異なる人口集団の社会的先行によって形成される。
経済学や社会科学において「多言語的」なモデリングは、状況によって視点の違いを捉えることを目的としているが、現在のLarge Language Model(LLM)は、異なるペルソナとベースモデルで異なる結果をもたらす。
本研究では,提案手法を含む1つのプロンプト法が,モデルとパーソナのペア全体にわたって一様に支配されることを実証し,ペルソナの毒性検出を体系的に評価する。
相補的誤りを生かして4つのプロンプト変種をアンサンブルし,4ビットベクトル上の4ビットベクトル上の軽量なメタアンサンブルを提案する。
この結果から,提案したSVMアンサンブルは,個別のプロンプト手法や従来の多数決投票手法より一貫して優れており,多様なペルソナにおいて最も優れた総合的なパフォーマンスを達成できることが示された。
本研究は,有毒度検出のためのペルソナ条件付きプロンプトを初めて体系的に比較し,主観的NLPタスクにおける多元性評価のためのロバストな手法を提供する。
関連論文リスト
- Unlearning Comparator: A Visual Analytics System for Comparative Evaluation of Machine Unlearning Methods [23.6050988823262]
Machine Unlearning(MU)は、トレーニングされたモデルからターゲットトレーニングデータを削除して、削除されたデータがモデルの振る舞いにもはや影響を与えないようにすることを目的としている。
しかし、この急速に発展する分野の研究者たちは、異なるMUメソッドの振る舞いを分析し、理解する上で困難に直面している。
MU手法の体系的評価を容易にするために,視覚解析システムUnlearning Comparatorを導入する。
論文 参考訳(メタデータ) (2025-08-18T08:53:53Z) - Perspectives in Play: A Multi-Perspective Approach for More Inclusive NLP Systems [3.011820285006942]
本研究では,視点認識モデルの開発を促進するために,ソフトラベルを用いた新しい多視点アプローチを提案する。
我々は、ヘイトスピーチ、皮肉、虐待言語、スタンス検出など、多様な主観的テキスト分類タスクの分析を行う。
結果は、Jensen-Shannon Divergence (JSD) が測定したように、マルチパースペクティブアプローチが人間のラベル分布をよりよく近似していることを示している。
本手法は,本文の主観性に起因して,皮肉や姿勢検出などの課題に対する信頼度を低下させる。
論文 参考訳(メタデータ) (2025-06-25T07:53:36Z) - Has My System Prompt Been Used? Large Language Model Prompt Membership Inference [56.20586932251531]
Prompt Detectiveは,システムプロンプトがサードパーティの言語モデルによって使用されているかどうかを確実に判断する統計手法である。
我々の研究は、システムの小さな変更でさえ、異なる応答分布に現れ、統計的に意味のある迅速な使用を検証できることを明らかにした。
論文 参考訳(メタデータ) (2025-02-14T08:00:42Z) - Adaptive Prompting: Ad-hoc Prompt Composition for Social Bias Detection [30.836788377666]
本稿では,与えられた入力に対する最適プロンプト合成アドホックを予測する適応的プロンプト手法を提案する。
我々は,意味的理解を必要とする文脈に依存した社会的偏見検出にアプローチを適用した。
我々の手法は高い検出性能を確実に保証し、いくつかの設定で最善である。
論文 参考訳(メタデータ) (2025-02-10T14:06:19Z) - Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - VRPTEST: Evaluating Visual Referring Prompting in Large Multimodal
Models [19.32035955420203]
我々は,様々な視覚的参照促進戦略を用いて,LMM(Large Multimodal Models)の最初の包括的解析を行う。
人間の介入や手動ラベリングを必要とせずにLMMの精度を評価するための自動評価フレームワークを開発した。
現在のプロプライエタリモデルは一般的にオープンソースモデルよりも優れており、平均精度は22.70%向上している。
論文 参考訳(メタデータ) (2023-12-07T06:53:55Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Exploiting Meta-Cognitive Features for a Machine-Learning-Based One-Shot
Group-Decision Aggregation [0.7340017786387767]
信頼に基づく手法のようなメタ認知情報に依存する手法は、様々なタスクにおいて改善された。
本研究の目的は,メタ認知情報を活用し,そこから学習することである。
論文 参考訳(メタデータ) (2022-01-20T15:56:18Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。