論文の概要: Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling
- arxiv url: http://arxiv.org/abs/2508.03296v1
- Date: Tue, 05 Aug 2025 10:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.912105
- Title: Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling
- Title(参考訳): 政策対応型推論と階層的ラベリングによる信頼性の高いマルチモーダルモデレーションを目指して
- Authors: Anqi Li, Wenwei Jin, Jintao Tong, Pengda Qin, Weijia Li, Guo Lu,
- Abstract要約: Hi-Guardは、新しいポリシーに沿った決定パラダイムを導入するマルチモーダルモデレーションフレームワークである。
進化するモデレーションポリシとの整合性を確保するため、Hi-Guardはモデルプロンプトにルール定義を直接組み込む。
実験と実世界の展開は、Hi-Guardが優れた分類精度、一般化、解釈可能性を達成することを示した。
- 参考スコア(独自算出の注目度): 22.914127076888086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social platforms have revolutionized information sharing, but also accelerated the dissemination of harmful and policy-violating content. To ensure safety and compliance at scale, moderation systems must go beyond efficiency and offer accuracy and interpretability. However, current approaches largely rely on noisy, label-driven learning, lacking alignment with moderation rules and producing opaque decisions that hinder human review. Therefore, we propose Hierarchical Guard (Hi-Guard), a multimodal moderation framework that introduces a new policy-aligned decision paradigm. The term "Hierarchical" reflects two key aspects of our system design: (1) a hierarchical moderation pipeline, where a lightweight binary model first filters safe content and a stronger model handles fine-grained risk classification; and (2) a hierarchical taxonomy in the second stage, where the model performs path-based classification over a hierarchical taxonomy ranging from coarse to fine-grained levels. To ensure alignment with evolving moderation policies, Hi-Guard directly incorporates rule definitions into the model prompt. To further enhance structured prediction and reasoning, we introduce a multi-level soft-margin reward and optimize with Group Relative Policy Optimization (GRPO), penalizing semantically adjacent misclassifications and improving explanation quality. Extensive experiments and real-world deployment demonstrate that Hi-Guard achieves superior classification accuracy, generalization, and interpretability, paving the way toward scalable, transparent, and trustworthy content safety systems. Code is available at: https://github.com/lianqi1008/Hi-Guard.
- Abstract(参考訳): ソーシャルプラットフォームは情報共有に革命をもたらしたが、有害でポリシーに違反するコンテンツの拡散を加速させた。
大規模で安全性とコンプライアンスを確保するためには、モデレーションシステムは効率を越え、正確性と解釈可能性を提供する必要がある。
しかし、現在のアプローチは、ノイズの多いラベル駆動学習に大きく依存しており、モデレーションルールの整合性に欠け、人間のレビューを妨げる不透明な決定を生み出している。
そこで我々は,新しい政策整合性決定パラダイムを導入するマルチモーダル・モデレーション・フレームワークである階層ガード(Hi-Guard)を提案する。
階層的」という用語はシステム設計の2つの重要な側面を反映している:(1) 軽量のバイナリモデルがまず安全なコンテンツをフィルタリングし、より強力なモデルがきめ細かなリスク分類を処理する階層的モデレーションパイプライン、(2) モデルが粗いレベルからきめ細かなレベルまでの階層的分類をパスベースで分類する第2段階の階層的分類。
進化するモデレーションポリシとの整合性を確保するため、Hi-Guardはモデルプロンプトにルール定義を直接組み込む。
構造化予測と推論をさらに強化するため,多段階のソフトマージン報酬を導入し,グループ相対ポリシー最適化(GRPO)で最適化し,セマンティックに隣接した誤分類を罰し,説明品質を向上させる。
大規模な実験と実世界の展開は、Hi-Guardが優れた分類精度、一般化、解釈可能性を実現し、スケーラブルで透明で信頼性の高いコンテンツ安全システムへの道を開くことを実証している。
コードは、https://github.com/lianqi1008/Hi-Guard.comで入手できる。
関連論文リスト
- HiD-VAE: Interpretable Generative Recommendation via Hierarchical and Disentangled Semantic IDs [33.51075655987504]
HiD-VAEは、2つのコアイノベーションを通じて階層的に切り離されたアイテム表現を学ぶ新しいフレームワークである。
第一に、HiD-VAEは階層的に制御された量子化プロセスの先駆者であり、離散コードとマルチレベルアイテムタグを整列する。
第二に、HiD-VAEは表現の絡み合いと戦うために、遅延空間の重なりを直接罰する新しい特異性損失を取り入れている。
論文 参考訳(メタデータ) (2025-08-06T16:45:05Z) - Towards Privacy-Preserving Fine-Grained Visual Classification via Hierarchical Learning from Label Proportions [25.974006393027228]
本稿では,インスタンスラベルに直接アクセスすることなく,高精度な粒度認識を実現することを目的とする。
既存のLPPベースの手法とは異なり、我々のフレームワークはきめ細かいデータセットの階層的性質を明示的に活用する。
論文 参考訳(メタデータ) (2025-05-29T03:18:25Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Enforcing Consistency and Fairness in Multi-level Hierarchical Classification with a Mask-based Output Layer [25.819440955594736]
分類を強制し、一貫性、公正性、正確な一致を含む目的を最適化するために設計された公正でモデルに依存しないレイヤを導入します。
評価の結果,提案した層は予測の公平性を向上するだけでなく,分類を強制し,一貫した予測と優れた性能をもたらすことが示された。
論文 参考訳(メタデータ) (2025-03-19T06:30:04Z) - Bidirectional Logits Tree: Pursuing Granularity Reconcilement in Fine-Grained Classification [89.20477310885731]
本稿では,粒度分類タスクにおけるグラニュラリティコンペティションの課題について述べる。
既存のアプローチは通常、共通のベースエンコーダから抽出された共有特徴に基づいて、独立した階層認識モデルを開発する。
グラニュラリティ再構成のための双方向ロジットツリー(BiLT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-17T10:42:19Z) - Hierarchical Selective Classification [17.136832159667204]
本稿では,階層型選択分類を導入し,階層型選択分類を階層型に拡張する。
まず階層的リスクとカバレッジを形式化し、階層的リスクカバレッジ曲線を導入します。
次に、階層的選択分類のためのアルゴリズムを開発し、高い確率で目標精度の制約を保証する効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-19T12:24:30Z) - Adaptive Hierarchical Certification for Segmentation using Randomized Smoothing [87.48628403354351]
機械学習の認証は、特定の条件下では、敵対的なサンプルが特定の範囲内でモデルを回避できないことを証明している。
セグメンテーションの一般的な認証方法は、平らな粒度のクラスを使い、モデルの不確実性による高い断続率をもたらす。
本稿では,複数レベルの階層内で画素を認証し,不安定なコンポーネントに対して粗いレベルに適応的に認証を緩和する,新しい,より実用的な設定を提案する。
論文 参考訳(メタデータ) (2024-02-13T11:59:43Z) - SemiReward: A General Reward Model for Semi-supervised Learning [58.47299780978101]
半教師付き学習(SSL)は、擬似ラベリングによる自己学習フレームワークの様々な改善により、大きな進歩をみせた。
主な課題は、高品質な擬似ラベルを確認バイアスと区別する方法である。
本稿では、報酬スコアを予測して高品質な擬似ラベルを評価・フィルタリングするセミ教師付きリワードフレームワーク(SemiReward)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:56:41Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Interpretable Reinforcement Learning with Multilevel Subgoal Discovery [77.34726150561087]
離散環境のための新しい強化学習モデルを提案する。
モデルでは、エージェントは確率的ルールの形で環境に関する情報を学習する。
学習には報酬関数は不要であり、エージェントは達成するための第一の目標のみを与える必要がある。
論文 参考訳(メタデータ) (2022-02-15T14:04:44Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - Hierarchical Modeling for Out-of-Scope Domain and Intent Classification [55.23920796595698]
本稿では,対話システムにおけるスコープ外意図分類に焦点をあてる。
ドメインとインテントを同時に分類する共同モデルに基づく階層型マルチタスク学習手法を提案する。
実験により、モデルが既存の手法よりも精度、スコープ外リコール、F1で優れていることが示された。
論文 参考訳(メタデータ) (2021-04-30T06:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。