Fugu-MT 論文翻訳(概要): BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

論文の概要: BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

arxiv url: http://arxiv.org/abs/2602.18193v2
Date: Mon, 23 Feb 2026 10:48:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 15:42:50.187542
Title: BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards
Title（参考訳）: BLM-Guard: チェーン・オブ・サートとポリシ・アラインド・リワードによる説明可能なマルチモーダル広告モデレーション
Authors: Yiran Yang, Zhaowei Liu, Yuan Yuan, Yukun Song, Xiong Ma, Yinghao Song, Xiangji Zeng, Lu Sun, Yulu Wang, Hai Zhou, Shuai Cui, Zhaohan Gong, Jiefei Zhang,
Abstract要約: BLM-Guardは商用広告のためのコンテンツ監査フレームワークである。 BLM-Guardは、規則に基づく政策原則と批判的な報酬を合理化している。実際のショートビデオ広告の実験では、BLM-Guardは精度、一貫性、一般化において強力なベースラインを超えている。
参考スコア（独自算出の注目度）: 10.887241428335669
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Short-video platforms now host vast multimodal ads whose deceptive visuals, speech and subtitles demand finer-grained, policy-driven moderation than community safety filters. We present BLM-Guard, a content-audit framework for commercial ads that fuses Chain-of-Thought reasoning with rule-based policy principles and a critic-guided reward. A rule-driven ICoT data-synthesis pipeline jump-starts training by generating structured scene descriptions, reasoning chains and labels, cutting annotation costs. Reinforcement learning then refines the model using a composite reward balancing causal coherence with policy adherence. A multitask architecture models intra-modal manipulations (e.g., exaggerated imagery) and cross-modal mismatches (e.g., subtitle-speech drift), boosting robustness. Experiments on real short-video ads show BLM-Guard surpasses strong baselines in accuracy, consistency and generalization.
Abstract（参考訳）: ショートビデオプラットフォームでは、見知らぬ視覚、スピーチ、字幕がコミュニティの安全フィルターよりもきめ細かなポリシー駆動のモデレーションを必要とする巨大なマルチモーダル広告がホストされている。 BLM-Guardは、Chain-of-Thought推論にルールベースのポリシー原則と批評家による報酬を融合した、商業広告のためのコンテンツ監査フレームワークである。ルール駆動型ICoTデータ合成パイプラインは、構造化シーン記述、推論チェーンとラベルの生成、アノテーションコストの削減によるトレーニングを開始する。強化学習は、因果一貫性とポリシー順守のバランスをとる複合報酬を用いてモデルを洗練する。マルチタスクアーキテクチャは、モーダル内操作(例、誇張された画像)とモーダル間ミスマッチ(例、字幕・音声ドリフト)をモデル化し、ロバスト性を高める。実際のショートビデオ広告の実験では、BLM-Guardは精度、一貫性、一般化において強力なベースラインを超えている。

関連論文リスト

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。 MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文参考訳（メタデータ） (2026-02-04T12:12:49Z)
AdNanny: One Reasoning LLM for All Offline Ads Recommendation Tasks [57.725430699642004]
大規模言語モデル(LLM)は、自然言語理解と生成において強力な能力を示している。オンライン広告システムに直接デプロイするのは、厳密なミリ秒レベルの遅延制約のため、現実的ではないことが多い。我々は、オフライン広告タスクの共有バックボーンとして機能する統合推論中心のLCMであるAdNannyを紹介します。
論文参考訳（メタデータ） (2026-02-02T02:56:11Z)
Video-KTR: Reinforcing Video Reasoning via Key Token Attribution [25.432599971462636]
強化学習 (Reinforcement Learning, RL) は多モーダル大言語モデルにおける推論の強化に強い可能性を示している。選択的なトークンレベルRLを実行するモダリティ対応のポリシーシェーピングフレームワークであるVideo-KTRを提案する。 Video-KTRは最先端または高い競争力を持ち、ビデオホルム(GPT-4oを通り抜ける)で42.7%を達成し、推論と一般的なビデオ理解の両タスクで一貫した利益を得ている。
論文参考訳（メタデータ） (2026-01-27T15:02:23Z)
CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models [66.56549019393042]
ビデオ言語モデル(VLM)は、強いマルチモーダル理解を実現するが、特に行動や時間秩序を推論する場合、幻覚を起こす傾向にある。本稿では,シーンコンテキストを保ちながら,アクションや時間構造が異なる映像を合成する,対物映像生成のためのスケーラブルなフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-08T10:03:07Z)
MultiHateLoc: Towards Temporal Localisation of Multimodal Hate Content in Online Videos [22.175314789730667]
MultiHateLocは、弱教師付きマルチモーダルヘイトローカライゼーションのためのフレームワークである。微粒で解釈可能なフレームレベルの予測を生成する。 HateMMとMultiHateClipの実験により,本手法がローカライゼーションタスクにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-12-11T08:18:22Z)
MSR-Align: Policy-Grounded Multimodal Alignment for Safety-Aware Reasoning in Vision-Language Models [18.760785302224175]
VLM(Vision-Language Models)は、多モーダル推論タスクにおいて、チェーンオブ思考能力の向上を通じて、顕著な進歩を遂げている。既存の安全アライメントアプローチは、マルチモーダル入力によって引き起こされる複雑でニュアンスな脅威に対処するには不十分である。 MSR-Alignは、視覚とテキストのモダリティの双方にわたって標準化された安全ポリシーよりも、きめ細かい、熟考的な推論をサポートしている。
論文参考訳（メタデータ） (2025-06-24T02:37:59Z)
ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。 ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。 ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文参考訳（メタデータ） (2025-05-21T12:29:40Z)
MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳（メタデータ） (2025-03-24T20:38:42Z)
Interleaved-Modal Chain-of-Thought [14.342351827047862]
チェーン・オブ・ソート(Chain-of-Thought)は、最終回答に到達する前に、一連の中間的推論ステップを導き出す。我々は、ICoT (textbf Interleaved-modal Chain-of-Thought) というイメージを組み込んだマルチモーダルチェーンを提案する。 ICoTは、最終的な答えを推測するために、ペア化された視覚的論理とテキスト的論理からなるシーケンシャルな推論ステップを生成する。
論文参考訳（メタデータ） (2024-11-29T06:06:35Z)
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文参考訳（メタデータ） (2020-01-18T15:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。