論文の概要: Multi-Modal Machine Learning for Assessing Gaming Skills in Online
Streaming: A Case Study with CS:GO
- arxiv url: http://arxiv.org/abs/2307.12236v1
- Date: Sun, 23 Jul 2023 06:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 17:09:51.946819
- Title: Multi-Modal Machine Learning for Assessing Gaming Skills in Online
Streaming: A Case Study with CS:GO
- Title(参考訳): オンラインストリーミングにおけるゲームスキル評価のためのマルチモーダル機械学習:CS:GOを事例として
- Authors: Longxiang Zhang, Wenping Wang
- Abstract要約: ビデオからゲームスキルを評価することは、ストリーミングサービスプロバイダが才能あるゲーマーを見つけるための重要なタスクです。
本稿では,複数のモーダルの共役表現を学習するために,最新のエンド・ツー・エンドモデルの変種をいくつか提案する。
提案するモデルでは,意味のある表現を学習するのではなく,ユーザを識別する傾向がある。
- 参考スコア(独自算出の注目度): 34.33877198992597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online streaming is an emerging market that address much attention. Assessing
gaming skills from videos is an important task for streaming service providers
to discover talented gamers. Service providers require the information to offer
customized recommendation and service promotion to their customers. Meanwhile,
this is also an important multi-modal machine learning tasks since online
streaming combines vision, audio and text modalities. In this study we begin by
identifying flaws in the dataset and proceed to clean it manually. Then we
propose several variants of latest end-to-end models to learn joint
representation of multiple modalities. Through our extensive experimentation,
we demonstrate the efficacy of our proposals. Moreover, we identify that our
proposed models is prone to identifying users instead of learning meaningful
representations. We purpose future work to address the issue in the end.
- Abstract(参考訳): オンラインストリーミングは、多くの注目を集める新興市場だ。
ビデオからゲームスキルを評価することは、ストリーミングサービスプロバイダが才能あるゲーマーを見つけるための重要なタスクである。
サービス提供者は、顧客にカスタマイズされたレコメンデーションとサービスプロモーションを提供する情報を要求する。
一方で、オンラインストリーミングはビジョン、オーディオ、テキストのモダリティを組み合わせるため、これは重要なマルチモーダル機械学習タスクでもある。
本研究では、まずデータセットの欠陥を特定し、手動できれいにすることから始める。
次に,複数のモダリティの結合表現を学ぶために,最新のエンド・ツー・エンドモデルのいくつかの変種を提案する。
広範な実験を通じて,提案の有効性を実証する。
さらに,提案モデルでは,意味のある表現を学習する代わりに,ユーザを識別する傾向がある。
この問題に最終的に対処するために、今後の作業が目的です。
関連論文リスト
- Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models [26.964848679914354]
CoKnowは、リッチなコンテキスト知識を備えたビジョンランゲージモデルのためのPrompt Learningを強化するフレームワークである。
我々は11の公開データセットに対して広範な実験を行い、CoKnowが過去の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-04-16T07:44:52Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - CLUE: Contextualised Unified Explainable Learning of User Engagement in
Video Lectures [6.25256391074865]
本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。
我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
論文 参考訳(メタデータ) (2022-01-14T19:51:06Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Classification of Important Segments in Educational Videos using
Multimodal Features [10.175871202841346]
本稿では,最先端の音声・視覚・テキスト機能を利用したマルチモーダルニューラルアーキテクチャを提案する。
本実験では,視覚的・時間的情報の影響と,重大予測に対するマルチモーダル特徴の組み合わせについて検討した。
論文 参考訳(メタデータ) (2020-10-26T14:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。