論文の概要: Knowledge Enhanced Model for Live Video Comment Generation
- arxiv url: http://arxiv.org/abs/2304.14657v1
- Date: Fri, 28 Apr 2023 07:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:06:19.216845
- Title: Knowledge Enhanced Model for Live Video Comment Generation
- Title(参考訳): ライブビデオコメント生成のための知識強化モデル
- Authors: Jieting Chen, Junkai Ding, Wenping Chen, Qin Jin
- Abstract要約: 本稿では,ライブビデオコメントの発散と情報的特性に着想を得た知識強化生成モデルを提案する。
本モデルは,事前学習型エンコーダデコーダフレームワークを採用し,外部知識を取り入れている。
MovieLCデータセットとコードがリリースされる。
- 参考スコア(独自算出の注目度): 40.762720398152766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Live video commenting is popular on video media platforms, as it can create a
chatting atmosphere and provide supplementary information for users while
watching videos. Automatically generating live video comments can improve user
experience and enable human-like generation for bot chatting. Existing works
mostly focus on short video datasets while ignoring other important video types
such as long videos like movies. In this work, we collect a new Movie Live
Comments (MovieLC) dataset to support research on live video comment generation
for long videos. We also propose a knowledge enhanced generation model inspired
by the divergent and informative nature of live video comments. Our model
adopts a pre-training encoder-decoder framework and incorporates external
knowledge. Extensive experiments show that both objective metrics and human
evaluation demonstrate the effectiveness of our proposed model. The MovieLC
dataset and our code will be released.
- Abstract(参考訳): ライブビデオのコメントはビデオメディアプラットフォームで人気があり、チャットの雰囲気を作り、ビデオを見ながらユーザーに補足的な情報を提供することができる。
ライブビデオコメントの自動生成は、ユーザー体験を改善し、ボットチャットのための人間のような生成を可能にする。
既存の作品は、主に短いビデオデータセットに焦点を当て、映画のような長いビデオのような他の重要なビデオタイプを無視している。
本研究は,長編ビデオのライブビデオコメント生成を支援するために,MovieLC(MovieLC)データセットを新たに収集する。
また,ライブビデオコメントの多様性と情報性に着想を得た知識強化生成モデルを提案する。
本モデルは,プリトレーニングエンコーダ・デコーダフレームワークを採用し,外部知識を取り入れている。
実験の結果,客観的指標と人的評価の両方が提案モデルの有効性を示すことがわかった。
MovieLCデータセットとコードがリリースされる。
関連論文リスト
- VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation [38.84663997781797]
我々は、37.6K以上の合成ビデオで人為的なマルチアスペクトスコアを含む最初の大規模データセットであるVideoFeedbackをリリースした。
実験では、VideoScoreと人間の間のSpearman相関が、VideoFeedback-testで77.1に達することが示され、以前のベストメトリクスを約50ポイント上回った。
論文 参考訳(メタデータ) (2024-06-21T15:43:46Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - ViCo: Engaging Video Comment Generation with Human Preference Rewards [68.50351391812723]
ビデオコメント生成の課題に対処するために,3つの新しいデザインのViCoを提案する。
コメントのエンゲージメントを定量化するために、各コメントが受け取る「いいね!
コメントのエンゲージメントを自動的に評価するために、我々は報酬モデルをトレーニングし、その判断を上記のプロキシに合わせる。
論文 参考訳(メタデータ) (2023-08-22T04:01:01Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。
まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文 参考訳(メタデータ) (2021-11-21T23:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。