論文の概要: LOLGORITHM: Funny Comment Generation Agent For Short Videos
- arxiv url: http://arxiv.org/abs/2604.09729v2
- Date: Tue, 14 Apr 2026 07:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.312487
- Title: LOLGORITHM: Funny Comment Generation Agent For Short Videos
- Title(参考訳): LOLGORITHM:短いビデオのための面白いコメント生成エージェント
- Authors: Xuan Ouyang, Bouzhou Wang, Senan Wang, Siyuan Xiahou, Jinrong Zhou, Yuekang Li,
- Abstract要約: LOLGORITHMは、スタイリングされたショートフォームビデオコメント生成のための新しいマルチエージェントフレームワークである。
6つのコントロール可能なコメントスタイルをサポートし、ビデオコンテンツ要約、ビデオ分類、コメント生成の3つのコアモジュールで構成されている。
- 参考スコア(独自算出の注目度): 7.225213386393225
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Short-form video platforms have become central to multimedia information dissemination, where comments play a critical role in driving engagement, propagation, and algorithmic feedback. However, existing approaches -- including video summarization and live-streaming danmaku generation -- fail to produce authentic comments that conform to platform-specific cultural and linguistic norms. In this paper, we present LOLGORITHM, a novel modular multi-agent framework for stylized short-form video comment generation. LOLGORITHM supports six controllable comment styles and comprises three core modules: video content summarization, video classification, and comment generation with semantic retrieval and hot meme augmentation. We further construct a bilingual dataset of 3,267 videos and 16,335 comments spanning five high-engagement categories across YouTube and Douyin. Evaluation combining automatic scoring and large-scale human preference analysis demonstrates that LOLGORITHM consistently outperforms baseline methods, achieving human preference selection rates of 80.46\% on YouTube and 84.29\% on Douyin across 107 respondents. Ablation studies confirm that these gains are attributable to the framework architecture rather than the choice of backbone LLM, underscoring the robustness and generalizability of our approach.
- Abstract(参考訳): ショートフォームビデオプラットフォームはマルチメディア情報の普及の中心となり、コメントはエンゲージメント、伝播、アルゴリズム的なフィードバックを駆動する上で重要な役割を担っている。
しかし、ビデオ要約やライブストリーミングダンマク生成など、既存のアプローチでは、プラットフォーム固有の文化的・言語規範に準拠した真のコメントを生成できない。
本稿では,スタイル化されたショートフォームビデオコメント生成のための新しいモジュール型マルチエージェントフレームワークであるLOLGORITHMを提案する。
LOLGORITHMは6つのコントロール可能なコメントスタイルをサポートし、ビデオコンテンツ要約、ビデオ分類、セマンティック検索によるコメント生成、ホットミーム拡張の3つのコアモジュールで構成されている。
さらに、YouTubeとDouyinの5つのハイエンゲージメントカテゴリにまたがる3,267の動画と16,335のコメントのバイリンガルデータセットを構築します。
自動スコアリングと大規模人間の嗜好分析を組み合わせることで、LOLGORITHMは、YouTubeで80.46\%、Douyinで84.29\%を達成し、ベースライン法を一貫して上回っていることが分かる。
アブレーション研究は、これらの利得がバックボーンLLMの選択よりもフレームワークアーキテクチャに起因していることを確認し、我々のアプローチの堅牢性と一般化性を強調する。
関連論文リスト
- Script-a-Video: Deep Structured Audio-visual Captions via Factorized Streams and Relational Grounding [0.0]
MTSS(Multi-Stream Scene Script)はモノリシックなテキストを因数化して具体化されたシーン記述に置き換える新しいパラダイムである。
広範囲な実験によりMTSSは様々なモデルにおけるビデオ理解を一貫して強化することを示した。
アーキテクチャの適応がなくても、マルチショットビデオ生成におけるモノリシックプロンプトをMTSSに置き換えると、大幅に改善される。
論文 参考訳(メタデータ) (2026-04-13T09:50:36Z) - Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - A Benchmarking Methodology to Assess Open-Source Video Large Language Models in Automatic Captioning of News Videos [0.0]
本研究は,8つの最先端オープンソースVidLLMsを自動ニュースキャプションとして比較検討した。
我々は,語彙的指標(METEOR,ROUGE-L),意味的指標(BERTScore,CLIPScore,テキスト類似性,平均相互ランク)と,本研究で提案した2つの新しい忠実度指標を用いる。
分析の結果, ニュースビデオキャプションでは, 表面形状依存性, 静的フレームの感度, 機能単語のインフレーションなどにより, 識別能力に限界があることがわかった。
論文 参考訳(メタデータ) (2026-03-29T12:28:35Z) - Language-Guided Graph Representation Learning for Video Summarization [96.2763459348758]
本稿では,映像要約のためのLGRLN(Language-guided Graph Representation Learning Network)を提案する。
具体的には,ビデオフレームを構造化グラフに変換して時間的順序と文脈依存性を保存するビデオグラフ生成装置を提案する。
提案手法は,複数のベンチマークにおいて既存手法より優れている。
論文 参考訳(メタデータ) (2025-11-14T04:35:48Z) - Laugh, Relate, Engage: Stylized Comment Generation for Short Videos [7.225213386393225]
制御可能なショートビデオコメント生成用に設計されたモジュール型マルチエージェントシステム(MAS)であるLOLGORITHMを紹介する。
このシステムは、映像のセグメンテーション、文脈的および情緒的分析、スタイル対応のプロンプト構築を統合している。
それは6つの異なるコメントスタイルをサポートしている: 句(ホモフォン)、韻律、ミーム適用、皮肉(アイニー)、平易なユーモア、コンテンツ抽出である。
論文 参考訳(メタデータ) (2025-11-05T07:00:22Z) - Semantic Frame Aggregation-based Transformer for Live Video Comment Generation [10.604889675520925]
本稿では,ライブビデオストリーム上で,文脈的に適切なビデオコメントを生成するための新しいモデルを提案する。
私たちはCLIPの視覚テキストマルチモーダル知識を用いて、進行中の視聴者会話に対する意味的関連性に基づいて、映像フレームに重みを割り当てる。
コメントデコーダとクロスアテンション機構により、生成されたコメントは、チャットとビデオの両方の文脈的手がかりを反映する。
論文 参考訳(メタデータ) (2025-10-30T20:01:04Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。