論文の概要: ComVi: Context-Aware Optimized Comment Display in Video Playback
- arxiv url: http://arxiv.org/abs/2603.26173v1
- Date: Fri, 27 Mar 2026 08:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.40388
- Title: ComVi: Context-Aware Optimized Comment Display in Video Playback
- Title(参考訳): ComVi:ビデオ再生でコンテキスト対応のコメント表示を最適化
- Authors: Minsun Kim, Dawon Lee, Junyong Noh,
- Abstract要約: ComViは、文脈的に関係のある瞬間にコメントを表示する新しいシステムである。
まず、音声と視覚の相関を計算し、すべてのコメントを関連ビデオのタイムスタンプにマッピングし、コメントシーケンスを構築する。
ユーザースタディでは、ComViは従来のビデオインターフェースよりもはるかに魅力的な体験を提供した。
- 参考スコア(独自算出の注目度): 19.088928992771603
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: On general video-sharing platforms like YouTube, comments are displayed independently of video playback. As viewers often read comments while watching a video, they may encounter ones referring to moments unrelated to the current scene, which can reveal spoilers and disrupt immersion. To address this problem, we present ComVi, a novel system that displays comments at contextually relevant moments, enabling viewers to see time-synchronized comments and video content together. We first map all comments to relevant video timestamps by computing audio-visual correlation, then construct the comment sequence through an optimization that considers temporal relevance, popularity (number of likes), and display duration for comfortable reading. In a user study, ComVi provided a significantly more engaging experience than conventional video interfaces (i.e., YouTube and Danmaku), with 71.9% of participants selecting ComVi as their most preferred interface.
- Abstract(参考訳): YouTubeのような一般的なビデオ共有プラットフォームでは、コメントはビデオ再生とは独立して表示される。
視聴者はビデオを見ながらしばしばコメントを読むので、現在のシーンとは無関係な瞬間を指すものに出会うかもしれない。
この問題に対処するために,時間同期のコメントとビデオコンテンツを一緒に見ることのできる,文脈的に関連する瞬間にコメントを表示する新しいシステムであるComViを提案する。
まず、音声と視覚の相関を計算して、すべてのコメントを関連ビデオのタイムスタンプにマッピングし、時間的関連性、人気度(お気に入り数)、読み心地の良さを考慮し、コメントシーケンスを構築する。
ユーザー調査では、ComViは従来のビデオインターフェース(YouTubeやDanmakuなど)よりもはるかに魅力的な体験を提供しており、参加者の71.9%がComViを最も好まれるインターフェースとして選んだ。
関連論文リスト
- Semantic Frame Aggregation-based Transformer for Live Video Comment Generation [10.604889675520925]
本稿では,ライブビデオストリーム上で,文脈的に適切なビデオコメントを生成するための新しいモデルを提案する。
私たちはCLIPの視覚テキストマルチモーダル知識を用いて、進行中の視聴者会話に対する意味的関連性に基づいて、映像フレームに重みを割り当てる。
コメントデコーダとクロスアテンション機構により、生成されたコメントは、チャットとビデオの両方の文脈的手がかりを反映する。
論文 参考訳(メタデータ) (2025-10-30T20:01:04Z) - Enhancing Multimodal Affective Analysis with Learned Live Comment Features [12.437191675553423]
ライブコメント(ライブコメント、Danmaku)は、ビデオコンテンツと同期されたユーザー生成メッセージである。
まず、英語と中国語のビデオのライブコメントを含むLive Comment for Affective Analysisデータセットを構築した。
次に、コントラスト学習を用いてビデオエンコーダを訓練し、マルチモーダルな感情コンテンツ分析の強化のための合成ライブコメント機能を生成する。
論文 参考訳(メタデータ) (2024-10-21T18:19:09Z) - HOTVCOM: Generating Buzzworthy Comments for Videos [49.39846630199698]
この研究は、中国最大のビデオコンテンツデータセットであるtextscHotVComを紹介し、94万の多様なビデオと1億1700万のコメントからなる。
また、中国語のビデオデータセット上で、視覚的、聴覚的、テキスト的データを相乗的に統合し、影響力のあるホットコンテンツを生成するtexttComHeatフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T16:45:13Z) - ViCo: Engaging Video Comment Generation with Human Preference Rewards [68.50351391812723]
ビデオコメント生成の課題に対処するために,3つの新しいデザインのViCoを提案する。
コメントのエンゲージメントを定量化するために、各コメントが受け取る「いいね!
コメントのエンゲージメントを自動的に評価するために、我々は報酬モデルをトレーニングし、その判断を上記のプロキシに合わせる。
論文 参考訳(メタデータ) (2023-08-22T04:01:01Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - VTC: Improving Video-Text Retrieval with User Comments [22.193221760244707]
本稿では,ビデオ,タイトル,コメントの新しいデータセットを紹介する。
コメントを用いることで、画像、ビデオ、音声の表現をより良く、より文脈的に学習することができる。
論文 参考訳(メタデータ) (2022-10-19T18:11:39Z) - PRVR: Partially Relevant Video Retrieval [55.41367664146273]
現在のテキスト・ツー・ビデオ検索(T2VR)では、ビデオとアドホックなテキストクエリの対応が自然に存在するように、検索対象の動画を適切にトリミングしている。
本稿では,PRVR(Partially Relevant Video Retrieval)と呼ぶこの設定に関する最初の研究について述べる。
PRVRタスクを複数インスタンス学習問題として定式化し、クリップスケールとフレームスケールの両方の類似性を共同で学習するマルチスケール類似学習(MS-SL++)ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-26T09:07:16Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - The Potential of Using Vision Videos for CrowdRE: Video Comments as a
Source of Feedback [0.8594140167290097]
我々は、CrowdREで視覚ビデオを使用する可能性を分析し、評価する。
ケーススタディでは、YouTubeのヴィジュアルビデオに対する4505のコメントを分析した。
CrowdREの視覚ビデオの利用は大きな可能性を秘めていると結論付けている。
論文 参考訳(メタデータ) (2021-08-04T14:18:27Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。