論文の概要: Deep Generative Multi-Agent Imitation Model as a Computational Benchmark
for Evaluating Human Performance in Complex Interactive Tasks: A Case Study
in Football
- arxiv url: http://arxiv.org/abs/2303.13323v1
- Date: Thu, 23 Mar 2023 15:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 14:01:04.846286
- Title: Deep Generative Multi-Agent Imitation Model as a Computational Benchmark
for Evaluating Human Performance in Complex Interactive Tasks: A Case Study
in Football
- Title(参考訳): 複雑対話型タスクにおけるヒューマンパフォーマンス評価のための計算ベンチマークとしてのディープジェネレーティブマルチエージェント模倣モデル--フットボールを事例として
- Authors: Chaoyi Gu, Varuna De Silva
- Abstract要約: 本研究では,大人数選手と球追跡データセットに基づいて,条件付き変動リカレントニューラルネットワーク(VRNN)モデルに基づく生成モデルを訓練する。
トレーニング済みのConditional VRNN Modelは、チームのパフォーマンスを評価するベンチマークとして使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the performance of human is a common need across many
applications, such as in engineering and sports. When evaluating human
performance in completing complex and interactive tasks, the most common way is
to use a metric having been proved efficient for that context, or to use
subjective measurement techniques. However, this can be an error prone and
unreliable process since static metrics cannot capture all the complex contexts
associated with such tasks and biases exist in subjective measurement. The
objective of our research is to create data-driven AI agents as computational
benchmarks to evaluate human performance in solving difficult tasks involving
multiple humans and contextual factors. We demonstrate this within the context
of football performance analysis. We train a generative model based on
Conditional Variational Recurrent Neural Network (VRNN) Model on a large player
and ball tracking dataset. The trained model is used to imitate the
interactions between two teams and predict the performance from each team. Then
the trained Conditional VRNN Model is used as a benchmark to evaluate team
performance. The experimental results on Premier League football dataset
demonstrates the usefulness of our method to existing state-of-the-art static
metric used in football analytics.
- Abstract(参考訳): 人間のパフォーマンスを評価することは、エンジニアリングやスポーツなど、多くのアプリケーションで共通のニーズである。
複雑で対話的なタスクを完遂する際の人的パフォーマンスを評価する際、最も一般的な方法は、その文脈で効率的であることが証明されたメトリックを使うこと、または主観的測定技術を使用することである。
しかし、静的なメトリクスはそのようなタスクに関連するすべての複雑なコンテキストを捉えられず、主観的な測定にバイアスが存在するため、これはエラーになりがちで信頼できないプロセスになり得る。
本研究の目的は,データ駆動型AIエージェントを計算ベンチマークとして作成し,複数の人間や文脈要因を含む困難なタスクを解く上で,人間のパフォーマンスを評価することである。
我々は、サッカーのパフォーマンス分析の文脈でこれを実証する。
本研究では,条件付き変動リカレントニューラルネットワーク(vrnn)モデルに基づく生成モデルを,大規模プレーヤとボールトラッキングデータセット上でトレーニングする。
トレーニングされたモデルは、2つのチーム間のインタラクションを模倣し、各チームのパフォーマンスを予測するために使用されます。
次に、トレーニングされた条件付きVRNNモデルを使用して、チームのパフォーマンスを評価する。
プレミアリーグフットボールデータセットの実験結果から,本手法がフットボール分析に用いられている最先端の静的指標に有用であることを示す。
関連論文リスト
- SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - An Information-Theoretic Approach for Estimating Scenario Generalization
in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。
インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。
提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文 参考訳(メタデータ) (2022-11-02T01:39:30Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - Active Learning of Ordinal Embeddings: A User Study on Football Data [4.856635699699126]
人間は本来、未知の類似性関数を使用してラベル付けされていないデータセットのインスタンス間の距離を計測する。
この研究はディープ・メトリック・ラーニングを使用して、大規模なフットボールの軌跡データセットのアノテーションからユーザ定義の類似性関数を学習する。
論文 参考訳(メタデータ) (2022-07-26T07:55:23Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。
本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。
我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文 参考訳(メタデータ) (2020-07-07T17:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。