Fugu-MT 論文翻訳(概要): Multi-Modal Machine Learning for Assessing Gaming Skills in Online Streaming: A Case Study with CS:GO

論文の概要: Multi-Modal Machine Learning for Assessing Gaming Skills in Online Streaming: A Case Study with CS:GO

arxiv url: http://arxiv.org/abs/2307.12236v1
Date: Sun, 23 Jul 2023 06:03:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 17:09:51.946819
Title: Multi-Modal Machine Learning for Assessing Gaming Skills in Online Streaming: A Case Study with CS:GO
Title（参考訳）: オンラインストリーミングにおけるゲームスキル評価のためのマルチモーダル機械学習:CS:GOを事例として
Authors: Longxiang Zhang, Wenping Wang
Abstract要約: ビデオからゲームスキルを評価することは、ストリーミングサービスプロバイダが才能あるゲーマーを見つけるための重要なタスクです。本稿では,複数のモーダルの共役表現を学習するために,最新のエンド・ツー・エンドモデルの変種をいくつか提案する。提案するモデルでは,意味のある表現を学習するのではなく,ユーザを識別する傾向がある。
参考スコア（独自算出の注目度）: 34.33877198992597
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online streaming is an emerging market that address much attention. Assessing gaming skills from videos is an important task for streaming service providers to discover talented gamers. Service providers require the information to offer customized recommendation and service promotion to their customers. Meanwhile, this is also an important multi-modal machine learning tasks since online streaming combines vision, audio and text modalities. In this study we begin by identifying flaws in the dataset and proceed to clean it manually. Then we propose several variants of latest end-to-end models to learn joint representation of multiple modalities. Through our extensive experimentation, we demonstrate the efficacy of our proposals. Moreover, we identify that our proposed models is prone to identifying users instead of learning meaningful representations. We purpose future work to address the issue in the end.
Abstract（参考訳）: オンラインストリーミングは、多くの注目を集める新興市場だ。ビデオからゲームスキルを評価することは、ストリーミングサービスプロバイダが才能あるゲーマーを見つけるための重要なタスクである。サービス提供者は、顧客にカスタマイズされたレコメンデーションとサービスプロモーションを提供する情報を要求する。一方で、オンラインストリーミングはビジョン、オーディオ、テキストのモダリティを組み合わせるため、これは重要なマルチモーダル機械学習タスクでもある。本研究では、まずデータセットの欠陥を特定し、手動できれいにすることから始める。次に,複数のモダリティの結合表現を学ぶために,最新のエンド・ツー・エンドモデルのいくつかの変種を提案する。広範な実験を通じて,提案の有効性を実証する。さらに,提案モデルでは,意味のある表現を学習する代わりに,ユーザを識別する傾向がある。この問題に最終的に対処するために、今後の作業が目的です。

関連論文リスト

Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文参考訳（メタデータ） (2024-10-12T06:22:23Z)
Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文参考訳（メタデータ） (2024-10-08T01:41:56Z)
ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,専門家による解説を生成する。提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文参考訳（メタデータ） (2024-08-01T16:13:07Z)
Multimodal Language Models for Domain-Specific Procedural Video Summarization [0.0]
本研究では,ビデオ要約とステップ・バイ・ステップ・インストラクション生成のためのマルチモーダルモデルについて検討する。提案手法は,料理や医療処置など特定の領域におけるパフォーマンスを向上させるための微調整のTimeChatに焦点をあてる。以上の結果から, ドメイン固有の手続きデータに微調整を施すと, TimeChatは長めの動画において, 重要な指導ステップの抽出と要約を大幅に改善できることがわかった。
論文参考訳（メタデータ） (2024-07-07T15:50:46Z)
Multimodal Pretraining and Generation for Recommendation: A Tutorial [54.07497722719509]
チュートリアルは、マルチモーダル事前学習、マルチモーダル生成、産業アプリケーションという3つの部分で構成されている。マルチモーダル・レコメンデーションの迅速な理解を促進することを目的としており、この進化する景観の今後の発展について有意義な議論を促進することを目的としている。
論文参考訳（メタデータ） (2024-05-11T06:15:22Z)
Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文参考訳（メタデータ） (2022-08-17T05:30:18Z)
CLUE: Contextualised Unified Explainable Learning of User Engagement in Video Lectures [6.25256391074865]
本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
論文参考訳（メタデータ） (2022-01-14T19:51:06Z)
Classification of Important Segments in Educational Videos using Multimodal Features [10.175871202841346]
本稿では,最先端の音声・視覚・テキスト機能を利用したマルチモーダルニューラルアーキテクチャを提案する。本実験では,視覚的・時間的情報の影響と,重大予測に対するマルチモーダル特徴の組み合わせについて検討した。
論文参考訳（メタデータ） (2020-10-26T14:40:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。