論文の概要: Laugh, Relate, Engage: Stylized Comment Generation for Short Videos
- arxiv url: http://arxiv.org/abs/2511.03757v1
- Date: Wed, 05 Nov 2025 07:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.170233
- Title: Laugh, Relate, Engage: Stylized Comment Generation for Short Videos
- Title(参考訳): Laugh, Relate, Engage: 短いビデオのためのスティル化コメント生成
- Authors: Xuan Ouyang, Senan Wang, Bouzhou Wang, Siyuan Xiahou, Jinrong Zhou, Yuekang Li,
- Abstract要約: 制御可能なショートビデオコメント生成用に設計されたモジュール型マルチエージェントシステム(MAS)であるLOLGORITHMを紹介する。
このシステムは、映像のセグメンテーション、文脈的および情緒的分析、スタイル対応のプロンプト構築を統合している。
それは6つの異なるコメントスタイルをサポートしている: 句(ホモフォン)、韻律、ミーム適用、皮肉(アイニー)、平易なユーモア、コンテンツ抽出である。
- 参考スコア(独自算出の注目度): 7.225213386393225
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Short-video platforms have become a central medium in the modern Internet landscape, where efficient information delivery and strong interactivity are reshaping user engagement and cultural dissemination. Among the various forms of user interaction, comments play a vital role in fostering community participation and enabling content re-creation. However, generating comments that are both compliant with platform guidelines and capable of exhibiting stylistic diversity and contextual awareness remains a significant challenge. We introduce LOLGORITHM, a modular multi-agent system (MAS) designed for controllable short-video comment generation. The system integrates video segmentation, contextual and affective analysis, and style-aware prompt construction. It supports six distinct comment styles: puns (homophones), rhyming, meme application, sarcasm (irony), plain humor, and content extraction. Powered by a multimodal large language model (MLLM), LOLGORITHM directly processes video inputs and achieves fine-grained style control through explicit prompt markers and few-shot examples. To support development and evaluation, we construct a bilingual dataset using official APIs from Douyin (Chinese) and YouTube (English), covering five popular video genres: comedy skits, daily life jokes, funny animal clips, humorous commentary, and talk shows. Evaluation combines automated metrics originality, relevance, and style conformity with a large-scale human preference study involving 40 videos and 105 participants. Results show that LOLGORITHM significantly outperforms baseline models, achieving preference rates of over 90% on Douyin and 87.55% on YouTube. This work presents a scalable and culturally adaptive framework for stylized comment generation on short-video platforms, offering a promising path to enhance user engagement and creative interaction.
- Abstract(参考訳): ショートビデオプラットフォームは、効率的な情報配信と強力な対話性がユーザエンゲージメントと文化的普及を形作る、現代のインターネットランドスケープの中心的なメディアとなっている。
様々なタイプのユーザインタラクションの中で、コメントはコミュニティの参加を促進し、コンテンツの再創造を可能にする上で重要な役割を担っている。
しかし、プラットフォームガイドラインに準拠し、スタイリスティックな多様性と文脈的認識を示すことができるコメントを生成することは、大きな課題である。
制御可能なショートビデオコメント生成用に設計されたモジュール型マルチエージェントシステム(MAS)であるLOLGORITHMを紹介する。
このシステムは、映像のセグメンテーション、文脈的および情緒的分析、スタイル対応のプロンプト構築を統合している。
それは6つの異なるコメントスタイルをサポートしている: 句(ホモフォン)、韻律、ミーム適用、皮肉(アイニー)、平易なユーモア、コンテンツ抽出である。
LOLGORITHMはMLLM(Multimodal large language model)によって、ビデオ入力を直接処理し、明示的なプロンプトマーカーと少数ショットの例を通してきめ細かなスタイル制御を実現する。
開発と評価を支援するため,Douyin (中国語) と YouTube (英語) の公式 API を用いてバイリンガルデータセットを構築し,コメディ・スキット,日常のジョーク,面白い動物クリップ,ユーモラスな解説,トークショーの5つの人気ビデオジャンルをカバーした。
評価は、自動化されたメトリクスの独創性、関連性、スタイルの適合性と、40のビデオと105人の参加者を含む大規模な人間の嗜好調査を組み合わせる。
その結果、LOLGORITHMはベースラインモデルよりも優れており、Douyinでは90%以上、YouTubeでは87.55%であることがわかった。
この研究は、短いビデオプラットフォーム上でのスタイリングされたコメント生成のためのスケーラブルで文化的に適応的なフレームワークを示し、ユーザエンゲージメントとクリエイティブなインタラクションを強化するための有望な道を提供する。
関連論文リスト
- Semantic Frame Aggregation-based Transformer for Live Video Comment Generation [10.604889675520925]
本稿では,ライブビデオストリーム上で,文脈的に適切なビデオコメントを生成するための新しいモデルを提案する。
私たちはCLIPの視覚テキストマルチモーダル知識を用いて、進行中の視聴者会話に対する意味的関連性に基づいて、映像フレームに重みを割り当てる。
コメントデコーダとクロスアテンション機構により、生成されたコメントは、チャットとビデオの両方の文脈的手がかりを反映する。
論文 参考訳(メタデータ) (2025-10-30T20:01:04Z) - TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation [76.48551690189406]
本研究では,マルチショット音声ビデオ生成を支援する大規模データセットであるTalkCutsを提案する。
TalkCutsは、クローズアップ、ハーフボディ、フルボディビューを含む様々なカメラショットを備えた、500時間以上の高品質な人間の音声ビデオクリップを提供する。
このデータセットには、詳細なテキスト記述、2Dキーポイント、3D SMPL-Xモーションアノテーションが含まれ、10k以上のアイデンティティをカバーし、マルチモーダル学習と評価を可能にする。
論文 参考訳(メタデータ) (2025-10-08T17:16:09Z) - HOTVCOM: Generating Buzzworthy Comments for Videos [49.39846630199698]
この研究は、中国最大のビデオコンテンツデータセットであるtextscHotVComを紹介し、94万の多様なビデオと1億1700万のコメントからなる。
また、中国語のビデオデータセット上で、視覚的、聴覚的、テキスト的データを相乗的に統合し、影響力のあるホットコンテンツを生成するtexttComHeatフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T16:45:13Z) - LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts [8.070778830276275]
我々は,ライブコメント技術の開発を容易にするために,大規模音声・視覚多モーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
本稿では,映像中の時間的・空間的事象に対応するライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
論文 参考訳(メタデータ) (2023-10-01T02:35:58Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - 3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social
Media Short Videos [72.69052180249598]
ソーシャルメディアプラットフォームであるMojから抽出した多言語・多言語・多言語・多言語・多言語・多言語・専門的な短いビデオのデータセットである3MASSIVを提示する。
3MASSIVは、11言語で50Kのショートビデオ(平均20秒)と100Kの未ラベルビデオで構成されている。
本稿では,3MASSIVにおけるソーシャルメディアの内容がどのように動的かつ時間的であり,意味理解タスクや言語間分析に利用することができるかを示す。
論文 参考訳(メタデータ) (2022-03-28T02:47:01Z) - CLUE: Contextualised Unified Explainable Learning of User Engagement in
Video Lectures [6.25256391074865]
本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。
我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
論文 参考訳(メタデータ) (2022-01-14T19:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。