Fugu-MT 論文翻訳(概要): 3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection

論文の概要: 3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection

arxiv url: http://arxiv.org/abs/2406.09076v1
Date: Thu, 13 Jun 2024 12:58:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 17:54:00.207846
Title: 3M: Multi-modal Multi-task Multi-teacher Learning for Game Event Detection
Title（参考訳）: 3M:ゲームイベント検出のためのマルチモーダルマルチタスクマルチ教師学習
Authors: Thye Shan Ng, Feiqi Cao, Soyeon Caren Han,
Abstract要約: 本稿では,多教師によるゲームイベント検出フレームワークを新たに導入し,総合的なフレームワークの構築を究極の目標とする。この実験により,提案フレームワークの有効性が明らかとなった。
参考スコア（独自算出の注目度）: 9.813868112412868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Esports has rapidly emerged as a global phenomenon with an ever-expanding audience via platforms, like YouTube. Due to the inherent complexity nature of the game, it is challenging for newcomers to comprehend what the event entails. The chaotic nature of online chat, the fast-paced speech of the game commentator, and the game-specific user interface further compound the difficulty for users in comprehending the gameplay. To overcome these challenges, it is crucial to integrate the Multi-Modal (MM) information from the platform and understand the event. The paper introduces a new MM multi-teacher-based game event detection framework, with the ultimate goal of constructing a comprehensive framework that enhances the comprehension of the ongoing game situation. While conventional MM models typically prioritise aligning MM data through concurrent training towards a unified objective, our framework leverages multiple teachers trained independently on different tasks to accomplish the Game Event Detection. The experiment clearly shows the effectiveness of the proposed MM multi-teacher framework.
Abstract（参考訳）: Esportsはグローバルな現象として急速に発展し、YouTubeなどのプラットフォームを通じて視聴者が拡大している。ゲームの本質的な複雑さの性質から、新参者がイベントが持つものを理解することは困難である。オンラインチャットのカオス性、ゲームコメンテーターの速やかなスピーチ、ゲーム固有のユーザインターフェースは、ゲームプレイの理解の難しさをさらに複雑にしている。これらの課題を克服するためには、プラットフォームからMulti-Modal(MM)情報を統合し、イベントを理解することが重要です。本稿では,ゲーム状況の理解を深める包括的フレームワークを構築することを目的とした,MM多教師型ゲームイベント検出フレームワークを提案する。従来のMMモデルは,一貫した目標に向けて,同時学習によるMMデータの整合を優先するが,本フレームワークでは,異なるタスクを個別に訓練した複数の教師を活用して,ゲームイベント検出を実現する。この実験により,提案フレームワークの有効性が明らかとなった。

関連論文リスト

Divide-Fuse-Conquer: Eliciting "Aha Moments" in Multi-Scenario Games [36.162843233798455]
大規模言語モデル(LLM)は、強化学習(RL)中に突然高度な推論能力を示すことが観察されている。マルチシナリオRLにおける一般化を促進するためのフレームワークであるDivide-Fuse-Conquerを提案する。
論文参考訳（メタデータ） (2025-05-22T08:52:21Z)
CL-MoE: Enhancing Multimodal Large Language Model with Dual Momentum Mixture-of-Experts for Continual Visual Question Answering [27.812611421754482]
連続視覚質問応答 (VQA) のためのMLLMs-based dual momentum Mixture-of-Experts (CL-MoE) フレームワークを提案する。 MLLMと連続学習を統合し,LLMの豊富なコモンセンス知識を活用する。提案手法は,10VQAタスクにおける最先端性能を実現し,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2025-03-01T09:25:23Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。 MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文参考訳（メタデータ） (2024-12-24T18:51:19Z)
ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文参考訳（メタデータ） (2024-10-08T09:35:37Z)
Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文参考訳（メタデータ） (2024-10-07T17:59:48Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Game-MUG: Multimodal Oriented Game Situation Understanding and Commentary Generation Dataset [8.837048597513059]
本稿では,新しいマルチモーダルゲーム状況理解とオーディエンスによるコメント生成データセットであるGAME-MUGを紹介する。我々のデータセットは、YouTubeとTwitchの2020-2022 LOLゲームライブストリームから収集され、テキスト、オーディオ、時系列イベントログを含むマルチモーダルEスポーツゲーム情報を含んでいる。また,ゲーム状況とオーディエンス会話理解を網羅して,新たなオーディエンス会話追加コメントデータセットを提案する。
論文参考訳（メタデータ） (2024-04-30T00:39:26Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
Tachikuma: Understading Complex Interactions with Multi-Character and Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文参考訳（メタデータ） (2023-07-24T07:40:59Z)
Multi-Modal Machine Learning for Assessing Gaming Skills in Online Streaming: A Case Study with CS:GO [34.33877198992597]
ビデオからゲームスキルを評価することは、ストリーミングサービスプロバイダが才能あるゲーマーを見つけるための重要なタスクです。本稿では,複数のモーダルの共役表現を学習するために,最新のエンド・ツー・エンドモデルの変種をいくつか提案する。提案するモデルでは,意味のある表現を学習するのではなく,ユーザを識別する傾向がある。
論文参考訳（メタデータ） (2023-07-23T06:03:12Z)
TiZero: Mastering Multi-Agent Football with Curriculum Learning and Self-Play [19.98100026335148]
TiZeroは、スクラッチから学習する自己進化型マルチエージェントシステムである。これは、Google Research Footballの環境において、これまでのシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-02-15T08:19:18Z)
Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。単一モデルのトレーニング中に、このマッチングプロセスを最適化する。 13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2022-12-15T18:59:52Z)
Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team Composition [88.26752130107259]
現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。 1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
論文参考訳（メタデータ） (2021-05-18T17:27:37Z)
Fever Basketball: A Complex, Flexible, and Asynchronized Sports Game Environment for Multi-agent Reinforcement Learning [38.4742699455284]
バスケットボールの試合をエージェントが訓練する新しい強化学習環境であるFever Basketballゲームを紹介した。複数の文字、複数の位置、シングルエージェントとマルチエージェントのプレイヤー制御モードをサポートする複雑で困難な環境である。現実のバスケットボールの試合をより良くシミュレートするために、アクションの実行時間が異なるため、Fever Basketballは新しい非同期環境となる。
論文参考訳（メタデータ） (2020-12-06T07:51:59Z)
The Multi-Agent Reinforcement Learning in MalmÖ (MARLÖ) Competition [14.726566410348985]
The Multi-Agent Reinforcement Learning in Malm"O (MARL"O) competition is a new challenge that proposes research in this domain using multiple 3D games。このコンテストの目的は、様々なゲームや対戦相手を学習できる一般エージェントの研究を促進することである。
論文参考訳（メタデータ） (2019-01-23T21:01:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。