論文の概要: ViCo: Engaging Video Comment Generation with Human Preference Rewards
- arxiv url: http://arxiv.org/abs/2308.11171v1
- Date: Tue, 22 Aug 2023 04:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:17:42.641253
- Title: ViCo: Engaging Video Comment Generation with Human Preference Rewards
- Title(参考訳): ViCo: 人間の嗜好を抑えたビデオコメント生成
- Authors: Yuchong Sun, Bei Liu, Xu Chen, Ruihua Song, Jianlong Fu
- Abstract要約: ビデオコメント生成の課題に対処するために,3つの新しいデザインのViCoを提案する。
コメントのエンゲージメントを定量化するために、各コメントが受け取る「いいね!
コメントのエンゲージメントを自動的に評価するために、我々は報酬モデルをトレーニングし、その判断を上記のプロキシに合わせる。
- 参考スコア(独自算出の注目度): 68.50351391812723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engaging video comments play an important role in video social media, as they
are the carrier of feelings, thoughts, or humor of the audience. Preliminary
works have made initial exploration for video comment generation by adopting
caption-style encoder-decoder models. However, comment generation presents some
unique challenges distinct from caption generation, which makes these methods
somewhat less effective at generating engaging comments. In contrast to the
objective and descriptive nature of captions, comments tend to be inherently
subjective, making it hard to quantify and evaluate the engagement of comments.
Furthermore, the scarcity of truly engaging comments brings difficulty to
collecting enough high-quality training examples. In this paper, we propose
ViCo with three novel designs to tackle the above challenges for generating
engaging Video Comments. Firstly, to quantify the engagement of comments, we
utilize the number of "likes" each comment receives as a proxy of human
preference after an appropriate debiasing procedure. Secondly, to automatically
evaluate the engagement of comments, we train a reward model to align its
judgment to the above proxy. Our user studies indicate that this reward model
effectively aligns with human judgments. Lastly, to alleviate the scarcity of
high-quality comments, an initial generator is trained on readily available but
noisy data to generate comments. Then the reward model is employed to offer
feedback on the generated comments, thus optimizing the initial generator. To
facilitate the research of video commenting, we collect a large video
comment-dataset (ViCo-20k) with rich metadata from a popular video website.
Experiments on ViCo-20k show that the comments generated by our ViCo model
exhibit the best performance in terms of both quantitative and qualitative
results, particularly when engagement is considered.
- Abstract(参考訳): ビデオコメントは、視聴者の感情、考え、ユーモアの担い手であるため、ビデオソーシャルメディアにおいて重要な役割を担っている。
キャプション型エンコーダ-デコーダモデルを採用することで,ビデオコメント生成の初期研究を行っている。
しかし、コメント生成はキャプション生成とは異なるいくつかの固有の課題を示しており、これらの手法は係わるコメントを生成するのにやや効果が低い。
キャプションの客観的かつ記述的な性質とは対照的に、コメントは本質的に主観的であり、コメントのエンゲージメントを定量化し評価することは困難である。
さらに、真に魅力的なコメントの不足は、十分な高品質なトレーニングサンプルを集めるのに困難をもたらします。
本稿では,ビデオコメント生成の課題に対処するために,3つの新しいデザインを取り入れたViCoを提案する。
まず、コメントの関与度を定量化するために、各コメントが受信する「いいね」の数を適切なデバイアス手順の後に人間の好みの代理として利用する。
次に、コメントのエンゲージメントを自動的に評価するために、評価を上記のプロキシに合わせるために報酬モデルをトレーニングする。
本研究は,この報酬モデルが人間の判断と効果的に一致することを示す。
最後に、高品質なコメントの不足を軽減するために、最初のジェネレータは簡単に利用できるがノイズの多いデータに基づいてトレーニングされ、コメントを生成する。
次に、報酬モデルを使用し、生成されたコメントにフィードバックを与え、初期ジェネレータを最適化する。
ビデオコメントの研究を容易にするため,人気ビデオサイトからビデオコメントデータベース(ViCo-20k)の豊富なメタデータを収集する。
ViCo-20kの実験では、ViCoモデルが生成したコメントは、量的および質的な結果の両方において、特にエンゲージメントを考慮した場合に、最高のパフォーマンスを示す。
関連論文リスト
- Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Knowledge Enhanced Model for Live Video Comment Generation [40.762720398152766]
本稿では,ライブビデオコメントの発散と情報的特性に着想を得た知識強化生成モデルを提案する。
本モデルは,事前学習型エンコーダデコーダフレームワークを採用し,外部知識を取り入れている。
MovieLCデータセットとコードがリリースされる。
論文 参考訳(メタデータ) (2023-04-28T07:03:50Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Classifying YouTube Comments Based on Sentiment and Type of Sentence [0.0]
我々は、よく知られた統計測度と機械学習モデルを用いて、YouTubeコメントからのテキスト抽出と分類の課題に対処する。
その結果,従来の手法を取り入れた手法が,コンテンツ制作者のチャンネルにおける視聴者エンゲージメント向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-10-31T18:08:10Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z) - A Multi-modal Approach to Fine-grained Opinion Mining on Video Reviews [47.726065950436585]
本稿では,ビデオレビューから詳細な意見をマイニングするためのマルチモーダル手法を提案する。
私たちのアプローチは、時間アノテーションを必要とせずに、文レベルで機能します。
論文 参考訳(メタデータ) (2020-05-27T13:46:11Z) - What comprises a good talking-head video generation?: A Survey and
Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。
提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文 参考訳(メタデータ) (2020-05-07T01:58:05Z) - Multimodal Matching Transformer for Live Commenting [97.06576354830736]
自動的なライブコメントは、視聴者にリアルタイムでビデオに対するコメントを提供することを目的としている。
このタスクの最近の研究は、コメントを生成するエンコーダ-デコーダモデルを採用している。
本稿では,コメント,視覚,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。
論文 参考訳(メタデータ) (2020-02-07T07:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。