論文の概要: Response to LiveBot: Generating Live Video Comments Based on Visual and
Textual Contexts
- arxiv url: http://arxiv.org/abs/2006.03022v1
- Date: Thu, 4 Jun 2020 17:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:17:59.992265
- Title: Response to LiveBot: Generating Live Video Comments Based on Visual and
Textual Contexts
- Title(参考訳): LiveBotへの反応:ビジュアルおよびテキストコンテキストに基づくライブビデオコメントの生成
- Authors: Hao Wu, Gareth J. F. Jones, Francois Pitie
- Abstract要約: LiveBotは最近、ALVC(Automatic Live Video Commenting)アプリケーションとして導入された。
LiveBotは、既存のビデオストリームと既存の視聴者コメントの両方からライブビデオコメントを生成する。
本稿では,これらの相違点を詳細に検討し,代替のベースライン実装を提案する。
- 参考スコア(独自算出の注目度): 7.8885775363362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Live video commenting systems are an emerging feature of online video sites.
Recently the Chinese video sharing platform Bilibili, has popularised a novel
captioning system where user comments are displayed as streams of moving
subtitles overlaid on the video playback screen and broadcast to all viewers in
real-time. LiveBot was recently introduced as a novel Automatic Live Video
Commenting (ALVC) application. This enables the automatic generation of live
video comments from both the existing video stream and existing viewers
comments. In seeking to reproduce the baseline results reported in the original
Livebot paper, we found differences between the reproduced results using the
project codebase and the numbers reported in the paper. Further examination of
this situation suggests that this may be caused by a number of small issues in
the project code, including a non-obvious overlap between the training and test
sets. In this paper, we study these discrepancies in detail and propose an
alternative baseline implementation as a reference for other researchers in
this field.
- Abstract(参考訳): ライブビデオコメントシステムは、オンラインビデオサイトの新たな機能である。
近年,中国のビデオ共有プラットフォームであるBilibiliは,動画再生画面上に動画の字幕をオーバーレイ表示し,リアルタイムで全視聴者に配信する新たなキャプションシステムを開発した。
LiveBotは最近、ALVC(Automatic Live Video Commenting)アプリケーションとして導入された。
これにより、既存のビデオストリームと既存の視聴者コメントの両方からライブビデオコメントを自動的に生成することができる。
元のLivebot論文で報告されたベースライン結果の再現を目指して,プロジェクトコードベースを用いた再現結果と,論文に報告された数値の相違を見出した。
この状況のさらなる検討は、トレーニングとテストセットの重複を含む、プロジェクトコードの多くの小さな問題によって引き起こされる可能性があることを示唆している。
本稿では,これらの相違を詳細に検討し,この分野の他の研究者への参考として,代替ベースライン実装を提案する。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts [8.070778830276275]
我々は,ライブコメント技術の開発を容易にするために,大規模音声・視覚多モーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
本稿では,映像中の時間的・空間的事象に対応するライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
論文 参考訳(メタデータ) (2023-10-01T02:35:58Z) - Knowledge Enhanced Model for Live Video Comment Generation [40.762720398152766]
本稿では,ライブビデオコメントの発散と情報的特性に着想を得た知識強化生成モデルを提案する。
本モデルは,事前学習型エンコーダデコーダフレームワークを採用し,外部知識を取り入れている。
MovieLCデータセットとコードがリリースされる。
論文 参考訳(メタデータ) (2023-04-28T07:03:50Z) - Connecting Vision and Language with Video Localized Narratives [54.094554472715245]
視覚と言語を繋ぐマルチモーダルなビデオアノテーションの新たな形式であるビデオローカライズド・ナラティブスを提案する。
オリジナルのLocalized Narrativesでは、アノテータは画像上にマウスを同時に移動させ、各単語をマウストレースセグメントで接地する。
我々の新しいプロトコルは、アノテータがローカライズド・ナラティブ(Localized Narratives)を使ってビデオのストーリーを語ることを可能にし、複数のアクターが相互に相互作用し、複数の受動的オブジェクトを持つ複雑なイベントをキャプチャする。
論文 参考訳(メタデータ) (2023-02-22T09:04:00Z) - VTC: Improving Video-Text Retrieval with User Comments [22.193221760244707]
本稿では,ビデオ,タイトル,コメントの新しいデータセットを紹介する。
コメントを用いることで、画像、ビデオ、音声の表現をより良く、より文脈的に学習することができる。
論文 参考訳(メタデータ) (2022-10-19T18:11:39Z) - VPN: Video Provenance Network for Robust Content Attribution [72.12494245048504]
VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
論文 参考訳(メタデータ) (2021-09-21T09:07:05Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Multimodal Matching Transformer for Live Commenting [97.06576354830736]
自動的なライブコメントは、視聴者にリアルタイムでビデオに対するコメントを提供することを目的としている。
このタスクの最近の研究は、コメントを生成するエンコーダ-デコーダモデルを採用している。
本稿では,コメント,視覚,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。
論文 参考訳(メタデータ) (2020-02-07T07:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。