論文の概要: Multi-Task Learning for User Engagement and Adoption in Live Video
Streaming Events
- arxiv url: http://arxiv.org/abs/2106.10305v1
- Date: Fri, 18 Jun 2021 18:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 08:17:16.517516
- Title: Multi-Task Learning for User Engagement and Adoption in Live Video
Streaming Events
- Title(参考訳): ライブビデオストリーミングイベントにおけるユーザエンゲージメントと採用のためのマルチタスク学習
- Authors: Stefanos Antaris and Dimitrios Rafailidis and Romina Arriaza
- Abstract要約: ライブビデオストリーミングイベントの時刻を選択するために,マルチタスク深層強化学習モデルを提案する。
我々は、視聴者の関与と採用を独立したタスクとみなし、共通の方針を学ぶために統一的な損失関数を定式化する。
本実験は,いくつかの最先端戦略と比較して提案手法の有効性を実証するものである。
- 参考スコア(独自算出の注目度): 7.5413579967970605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, live video streaming events have become a mainstay in viewer's
communication in large international enterprises. Provided that viewers are
distributed worldwide, the main challenge resides on how to schedule the
optimal event's time so as to improve both the viewer's engagement and
adoption. In this paper we present a multi-task deep reinforcement learning
model to select the time of a live video streaming event, aiming to optimize
the viewer's engagement and adoption at the same time. We consider the
engagement and adoption of the viewers as independent tasks and formulate a
unified loss function to learn a common policy. In addition, we account for the
fact that each task might have different contribution to the training strategy
of the agent. Therefore, to determine the contribution of each task to the
agent's training, we design a Transformer's architecture for the state-action
transitions of each task. We evaluate our proposed model on four real-world
datasets, generated by the live video streaming events of four large
enterprises spanning from January 2019 until March 2021. Our experiments
demonstrate the effectiveness of the proposed model when compared with several
state-of-the-art strategies. For reproduction purposes, our evaluation datasets
and implementation are publicly available at
https://github.com/stefanosantaris/merlin.
- Abstract(参考訳): 近年,大規模国際企業における視聴者のコミュニケーションにおいて,ライブビデオストリーミングイベントが主流となっている。
視聴者が世界中に分散しているという主な課題は、視聴者のエンゲージメントと採用の両方を改善するために、最適なイベントの時間をスケジュールする方法にある。
本稿では,ライブビデオストリーミングイベントの時刻を選択するためのマルチタスク深層強化学習モデルを提案する。
我々は、視聴者の関与と採用を独立したタスクとみなし、共通の方針を学ぶために統一的な損失関数を定式化する。
さらに、各タスクがエージェントのトレーニング戦略に異なる貢献をする可能性があるという事実も考慮する。
そこで,エージェントのトレーニングに対する各タスクの貢献度を決定するために,各タスクの状態-動作遷移に対するトランスフォーマーのアーキテクチャを設計する。
2019年1月から2021年3月までの4つの大企業のライブビデオストリーミングイベントによって生成された4つの実世界のデータセットについて,提案モデルを評価した。
本実験は,いくつかの最先端戦略と比較し,提案モデルの有効性を実証する。
再現のために、評価データセットと実装はhttps://github.com/stefanosantaris/merlin.comで公開されている。
関連論文リスト
- Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - PLOT-TAL -- Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization [7.682021482980697]
本稿では,時間的行動ローカライゼーション(TAL)への新たなアプローチを提案する。
本稿では,最適輸送により強化されたマルチプロンプト学習フレームワークを提案する。
本実験は,数ショット設定における動作の局所化精度とロバスト性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-03-27T18:08:14Z) - General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Learning State-Aware Visual Representations from Audible Interactions [39.08554113807464]
自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。
音声信号を用いて、より学習しやすい対話の瞬間を識別する。
大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
論文 参考訳(メタデータ) (2022-09-27T17:57:13Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Meta-Reinforcement Learning via Buffering Graph Signatures for Live
Video Streaming Events [4.332367445046418]
本稿では,ライブビデオストリーミングイベントに参加する視聴者間のネットワークのキャパシティの予測に適応するメタラーニングモデルを提案する。
実世界の3つのライブビデオストリーミングイベントにおけるリンクウェイト予測タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-03T14:03:22Z) - A Deep Graph Reinforcement Learning Model for Improving User Experience
in Live Video Streaming [7.852895577861326]
本稿では,ライブビデオストリーミングイベントにおけるユーザエクスペリエンスの予測と改善を目的としたディープグラフ強化学習モデルを提案する。
我々のモデルは、最初のストリーミング分で、高品質な体験を持つ視聴者を少なくとも75%増加させることができる。
論文 参考訳(メタデータ) (2021-07-28T19:53:05Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。