論文の概要: Reasoning-Enhanced Domain-Adaptive Pretraining of Multimodal Large Language Models for Short Video Content Moderation
- arxiv url: http://arxiv.org/abs/2509.21486v1
- Date: Thu, 25 Sep 2025 19:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.956268
- Title: Reasoning-Enhanced Domain-Adaptive Pretraining of Multimodal Large Language Models for Short Video Content Moderation
- Title(参考訳): ショートビデオコンテンツモデレーションのためのマルチモーダル大言語モデルの推論によるドメイン適応型事前学習
- Authors: Zixuan Wang, Yu Sun, Hongwei Wang, Baoyu Jing, Xiang Shen, Xin Dong, Zhuolin Hao, Hongyu Xiong, Yang Song,
- Abstract要約: 本稿では,不適切なコンテンツ検出を統一するためのMLLM事前学習パラダイムを提案する。
短いビデオコンテンツとMLLMのオリジナル事前学習データとの分配ギャップに対処するために,3つの目標事前学習タスクを導入する。
実験結果から,ゼロショットおよび教師付き微調整環境におけるMLLMの性能は,事前学習により有意に向上することが示された。
- 参考スコア(独自算出の注目度): 34.134289344567705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Short video platforms are evolving rapidly, making the identification of inappropriate content increasingly critical. Existing approaches typically train separate and small classification models for each type of issue, which requires extensive human-labeled data and lacks cross-issue generalization. We propose a reasoning-enhanced multimodal large language model (MLLM) pretraining paradigm for unified inappropriate content detection. To address the distribution gap between short video content and the original pretraining data of MLLMs, as well as the complex issue definitions, we introduce three targeted pretraining tasks: (1) \textit{Caption}, to enhance the MLLM's perception of video details; (2) \textit{Visual Question Answering (VQA)}, to deepen the MLLM's understanding of issue definitions and annotation guidelines; (3) \textit{Chain-of-Thought (CoT)}, to enhance the MLLM's reasoning capability. Experimental results show that our pretraining approach significantly improves the MLLM's performance in both zero-shot and supervised fine-tuning (SFT) settings. In addition, our pretrained model demonstrates strong generalization capabilities to emergent, previously unseen issues.
- Abstract(参考訳): 短いビデオプラットフォームは急速に進化し、不適切なコンテンツの識別がますます重要になっている。
既存のアプローチでは、様々な種類の問題に対して、異なる分類モデルと小さな分類モデルを訓練する。
本稿では,不適切なコンテンツ検出を統一するためのMLLM事前学習パラダイムを提案する。
短いビデオコンテンツとMLLMのオリジナルの事前学習データとの分散ギャップと複雑な課題定義に対処するため,(1) MLLMの映像詳細に対する認識を高めるために,(1) textit{Caption},(2) MLLMの課題定義とガイドラインの理解を深めるために,(2) textit{Visual Question Answering (VQA)} ,(3) textit{Chain-of-Thought (CoT)} という3つの事前学習タスクを導入し,MLLMの推論能力を高める。
実験結果から,ゼロショットおよび教師ありファインチューニング(SFT)設定におけるMLLMの性能は,事前学習により有意に向上することが示された。
さらに、事前訓練されたモデルでは、前例のない問題に対して強力な一般化能力を示す。
関連論文リスト
- A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。