論文の概要: Beyond One-Size-Fits-All: Personalized Harmful Content Detection with In-Context Learning
- arxiv url: http://arxiv.org/abs/2511.05532v1
- Date: Wed, 29 Oct 2025 09:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.025474
- Title: Beyond One-Size-Fits-All: Personalized Harmful Content Detection with In-Context Learning
- Title(参考訳): 1サイズ以上:インコンテキスト学習によるパーソナライズされた有害コンテンツ検出
- Authors: Rufan Zhang, Lin Zhang, Xianghang Mi,
- Abstract要約: 本稿では, 有害性, スパム, ネガティブ感情の検出を, バイナリ, マルチクラス, マルチラベル設定で統一するフレームワークを提案する。
このアプローチにより、軽量なパーソナライズが可能となり、ユーザーは、新しいカテゴリを簡単にブロックしたり、既存のカテゴリをブロックしたり、検出をセマンティックなバリエーションに拡張できる。
- 参考スコア(独自算出の注目度): 4.559454504442884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of harmful online content--e.g., toxicity, spam, and negative sentiment--demands robust and adaptable moderation systems. However, prevailing moderation systems are centralized and task-specific, offering limited transparency and neglecting diverse user preferences--an approach ill-suited for privacy-sensitive or decentralized environments. We propose a novel framework that leverages in-context learning (ICL) with foundation models to unify the detection of toxicity, spam, and negative sentiment across binary, multi-class, and multi-label settings. Crucially, our approach enables lightweight personalization, allowing users to easily block new categories, unblock existing ones, or extend detection to semantic variations through simple prompt-based interventions--all without model retraining. Extensive experiments on public benchmarks (TextDetox, UCI SMS, SST2) and a new, annotated Mastodon dataset reveal that: (i) foundation models achieve strong cross-task generalization, often matching or surpassing task-specific fine-tuned models; (ii) effective personalization is achievable with as few as one user-provided example or definition; and (iii) augmenting prompts with label definitions or rationales significantly enhances robustness to noisy, real-world data. Our work demonstrates a definitive shift beyond one-size-fits-all moderation, establishing ICL as a practical, privacy-preserving, and highly adaptable pathway for the next generation of user-centric content safety systems. To foster reproducibility and facilitate future research, we publicly release our code on GitHub and the annotated Mastodon dataset on Hugging Face.
- Abstract(参考訳): 有害なオンラインコンテンツ、例えば毒性、スパム、ネガティブな感情の拡散は、堅牢で適応可能なモデレーションシステムを必要とする。
しかし、一般的なモデレーションシステムは中央集権的でタスク固有であり、透明性が制限され、多様なユーザの好みを無視する。
本稿では,テキスト内学習(ICL)を基礎モデルと組み合わせて,2進・複数クラス・複数ラベル設定における有害性,スパム,ネガティブ感情の検出を統一するフレームワークを提案する。
重要なことは、我々のアプローチは軽量なパーソナライズを可能にし、ユーザーはモデルの再トレーニングなしに、新しいカテゴリを簡単にブロックしたり、既存のカテゴリをブロックしたり、単純なプロンプトベースの介入によって意味的なバリエーションに拡張したりすることができる。
公開ベンチマーク(TextDetox、UCI SMS、SST2)に関する大規模な実験と、新しい注釈付きMastodonデータセットにより、次のように明らかになった。
(i)基礎モデルは、しばしばタスク固有の細調整されたモデルに一致するか、あるいは超えるような強力なクロスタスク一般化を達成する。
二 有効パーソナライゼーションは、ユーザが提供する一例又は定義で達成することができる。
三 ラベル定義や合理性による拡張プロンプトは、騒々しい実世界のデータに対するロバスト性を大幅に向上させる。
我々の研究は、次世代のユーザー中心コンテンツ安全システムにおいて、ICLを実用的でプライバシ保護、高度に適応可能な経路として確立し、オールモデレーションの1つ以上の決定的な変化を示す。
再現性を高め、将来の研究を促進するため、GitHubとHugging Faceの注釈付きMastodonデータセットでコードを公開しています。
関連論文リスト
- Permutation-Invariant Representation Learning for Robust and Privacy-Preserving Feature Selection [28.951637174740203]
既存のメソッドは、複雑な機能のインタラクションをキャプチャし、さまざまなアプリケーションシナリオに適応するのに苦労することが多い。
ポリシー誘導型検索に置換不変な埋め込みを統合する新しいフレームワークを提案する。
実際には、ローカルクライアント間のデータは高度に不均衡であり、不均一であり、厳格なプライバシー規制によって制限されている。
論文 参考訳(メタデータ) (2025-10-07T02:53:32Z) - Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。
PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。
また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:58:45Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting [17.294176570269]
本稿では,複合報酬関数を用いた大規模言語モデル(LLM)を微調整する強化学習フレームワークを提案する。
プライバシ報酬は、セマンティックキューと、潜伏表現上の最小スパンニングツリー(MST)から派生した構造パターンを組み合わせる。
実験の結果,提案手法はセマンティック品質を劣化させることなく,著者の難読化とプライバシーの指標を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T04:38:19Z) - Personalized Query Auto-Completion for Long and Short-Term Interests with Adaptive Detoxification Generation [18.762185355073008]
本稿では,長期的かつ短期的な関心事からパーソナライズされた情報をキャプチャする新しいモデル(LaD)を提案する。
LaDでは、パーソナライズされた情報は、粗い粒度ときめ細かい粒度の両方で階層的にキャプチャされる。
私たちのモデルはKuaishou検索にデプロイされ、数億人のアクティブユーザーの主要なトラフィックを駆動しています。
論文 参考訳(メタデータ) (2025-05-27T09:58:42Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Self-Regularization with Sparse Autoencoders for Controllable LLM-based Classification [29.74457390987092]
大規模言語モデル(LLM)潜在空間における意図しない特徴を特定し,規則化する新しいフレームワークを提案する。
本稿では,有毒なチャット検出,報酬モデリング,疾患診断を含む3つの実世界の課題に関する枠組みについて検討する。
論文 参考訳(メタデータ) (2025-02-19T22:27:59Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。