Fugu-MT 論文翻訳(概要): Knowledge Enhanced Model for Live Video Comment Generation

論文の概要: Knowledge Enhanced Model for Live Video Comment Generation

arxiv url: http://arxiv.org/abs/2304.14657v1
Date: Fri, 28 Apr 2023 07:03:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-01 15:06:19.216845
Title: Knowledge Enhanced Model for Live Video Comment Generation
Title（参考訳）: ライブビデオコメント生成のための知識強化モデル
Authors: Jieting Chen, Junkai Ding, Wenping Chen, Qin Jin
Abstract要約: 本稿では,ライブビデオコメントの発散と情報的特性に着想を得た知識強化生成モデルを提案する。本モデルは,事前学習型エンコーダデコーダフレームワークを採用し,外部知識を取り入れている。 MovieLCデータセットとコードがリリースされる。
参考スコア（独自算出の注目度）: 40.762720398152766
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Live video commenting is popular on video media platforms, as it can create a chatting atmosphere and provide supplementary information for users while watching videos. Automatically generating live video comments can improve user experience and enable human-like generation for bot chatting. Existing works mostly focus on short video datasets while ignoring other important video types such as long videos like movies. In this work, we collect a new Movie Live Comments (MovieLC) dataset to support research on live video comment generation for long videos. We also propose a knowledge enhanced generation model inspired by the divergent and informative nature of live video comments. Our model adopts a pre-training encoder-decoder framework and incorporates external knowledge. Extensive experiments show that both objective metrics and human evaluation demonstrate the effectiveness of our proposed model. The MovieLC dataset and our code will be released.
Abstract（参考訳）: ライブビデオのコメントはビデオメディアプラットフォームで人気があり、チャットの雰囲気を作り、ビデオを見ながらユーザーに補足的な情報を提供することができる。ライブビデオコメントの自動生成は、ユーザー体験を改善し、ボットチャットのための人間のような生成を可能にする。既存の作品は、主に短いビデオデータセットに焦点を当て、映画のような長いビデオのような他の重要なビデオタイプを無視している。本研究は,長編ビデオのライブビデオコメント生成を支援するために,MovieLC(MovieLC)データセットを新たに収集する。また,ライブビデオコメントの多様性と情報性に着想を得た知識強化生成モデルを提案する。本モデルは,プリトレーニングエンコーダ・デコーダフレームワークを採用し,外部知識を取り入れている。実験の結果,客観的指標と人的評価の両方が提案モデルの有効性を示すことがわかった。 MovieLCデータセットとコードがリリースされる。

関連論文リスト

What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文参考訳（メタデータ） (2025-03-06T17:59:29Z)
GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning [62.775721264492994]
GRADEOは、最初に設計されたビデオ評価モデルの1つである。説明可能なスコアと評価のためにAIが生成したビデオを、多段階の推論によって評価する。実験の結果,本手法は既存手法よりも人的評価に適合していることがわかった。
論文参考訳（メタデータ） (2025-03-04T07:04:55Z)
VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文参考訳（メタデータ） (2025-01-10T18:52:11Z)
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文参考訳（メタデータ） (2024-12-05T18:53:04Z)
VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation [38.84663997781797]
我々は、37.6K以上の合成ビデオで人為的なマルチアスペクトスコアを含む最初の大規模データセットであるVideoFeedbackをリリースした。実験では、VideoScoreと人間の間のSpearman相関が、VideoFeedback-testで77.1に達することが示され、以前のベストメトリクスを約50ポイント上回った。
論文参考訳（メタデータ） (2024-06-21T15:43:46Z)
Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文参考訳（メタデータ） (2024-06-13T17:50:05Z)
VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文参考訳（メタデータ） (2024-06-05T17:53:55Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
ViCo: Engaging Video Comment Generation with Human Preference Rewards [68.50351391812723]
ビデオコメント生成の課題に対処するために,3つの新しいデザインのViCoを提案する。コメントのエンゲージメントを定量化するために、各コメントが受け取る「いいね! コメントのエンゲージメントを自動的に評価するために、我々は報酬モデルをトレーニングし、その判断を上記のプロキシに合わせる。
論文参考訳（メタデータ） (2023-08-22T04:01:01Z)
Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文参考訳（メタデータ） (2023-04-15T06:17:30Z)
How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。 Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。 Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文参考訳（メタデータ） (2022-10-18T17:58:25Z)
Video Content Swapping Using GAN [1.2300363114433952]
この作業では、ビデオの任意のフレームをコンテンツとポーズに分解します。まず、事前訓練された人間のポーズ検出を用いて映像からポーズ情報を抽出し、生成モデルを用いてコンテンツコードに基づいて映像を合成し、コードを合成する。
論文参考訳（メタデータ） (2021-11-21T23:01:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。