論文の概要: ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition
- arxiv url: http://arxiv.org/abs/2410.05774v4
- Date: Mon, 11 Nov 2024 17:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 17:14:22.668662
- Title: ActionAtlas: A VideoQA Benchmark for Domain-specialized Action Recognition
- Title(参考訳): ActionAtlas: ドメイン特化アクション認識のためのビデオQAベンチマーク
- Authors: Mohammadreza Salehi, Jae Sung Park, Tanush Yadav, Aditya Kusupati, Ranjay Krishna, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi,
- Abstract要約: ActionAtlasは、様々なスポーツのショートビデオを含むビデオ質問応答ベンチマークである。
このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。
我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
- 参考スコア(独自算出の注目度): 111.32822459456793
- License:
- Abstract: Our world is full of varied actions and moves across specialized domains that we, as humans, strive to identify and understand. Within any single domain, actions can often appear quite similar, making it challenging for deep models to distinguish them accurately. To evaluate the effectiveness of multimodal foundation models in helping us recognize such actions, we present ActionAtlas v1.0, a multiple-choice video question answering benchmark featuring short videos across various sports. Each video in the dataset is paired with a question and four or five choices. The question pinpoints specific individuals, asking which choice "best" describes their action within a certain temporal context. Overall, the dataset includes 934 videos showcasing 580 unique actions across 56 sports, with a total of 1896 actions within choices. Unlike most existing video question answering benchmarks that only cover simplistic actions, often identifiable from a single frame, ActionAtlas focuses on intricate movements and rigorously tests the model's capability to discern subtle differences between moves that look similar within each domain. We evaluate open and proprietary foundation models on this benchmark, finding that the best model, GPT-4o, achieves a maximum accuracy of 45.52%. Meanwhile, Non-expert crowd workers, provided with action description for each choice, achieve 61.64% accuracy, where random chance is approximately 21%. Our findings with state-of-the-art models indicate that having a high frame sampling rate is important for accurately recognizing actions in ActionAtlas, a feature that some leading proprietary video models, such as Gemini, do not include in their default configuration.
- Abstract(参考訳): 私たちの世界はさまざまな行動に満ちており、私たちは人間として、識別と理解を試みている特別な領域を横断しています。
単一のドメイン内では、アクションはよく似たように見えるため、ディープモデルがそれらを正確に区別することは困難である。
このような行動の認識を支援するためのマルチモーダル基盤モデルの有効性を評価するために,各種スポーツのショートビデオを特徴とするマルチチョイスビデオ質問応答ベンチマークであるActionAtlas v1.0を提案する。
データセット内の各ビデオには、質問と4、5の選択肢がペアリングされる。
この質問は特定の個人をピンポイントし、どの選択が「ベスト」であるかを尋ねる。
このデータセットには、56のスポーツで580のユニークなアクションを示す934の動画が含まれており、合計1896のアクションが選択できる。
単純なアクションのみをカバーする既存のビデオ質問応答ベンチマークとは異なり、ActionAtlasは複雑な動きに焦点を当て、各ドメイン内で類似している動き間の微妙な違いを識別するモデルの能力を厳格にテストする。
我々は、このベンチマークでオープンでプロプライエタリな基礎モデルを評価し、最高のモデルであるGPT-4oが45.52%の精度を達成することを発見した。
一方、各選択に対するアクション記述が提供される非熟練の群衆労働者は、61.64%の精度でランダムな確率は約21%である。
その結果,Geminiのような主要なプロプライエタリなビデオモデルではデフォルト設定に含まれない機能であるActionAtlasのアクションを正確に認識するには,フレームサンプリング率が高いことが示唆された。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features [0.0]
グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
論文 参考訳(メタデータ) (2023-12-06T08:58:11Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - A Graph-Based Method for Soccer Action Spotting Using Unsupervised
Player Classification [75.93186954061943]
アクションスポッティングには、ゲームのダイナミクス、イベントの複雑さ、ビデオシーケンスのバリエーションを理解することが含まれる。
本研究では, (a) 選手, 審判, ゴールキーパーをグラフのノードとして識別し, および (b) 時間的相互作用をグラフのシーケンスとしてモデル化することによって, 前者に焦点を当てる。
プレーヤ識別タスクでは,他のモダリティと組み合わせることで,平均mAPの57.83%の総合的な性能が得られる。
論文 参考訳(メタデータ) (2022-11-22T15:23:53Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized
Sports Actions [39.27858380391081]
本論文では、マルチスポーツとして作成された原子時間行動の新しいマルチパーソンデータセットを提示する。
4つのスポーツクラスを選択し、約3200のビデオクリップを収集し、37790のアクションインスタンスに907kバウンディングボックスをアノテートすることで、MultiSports v1.0のデータセットを構築します。
論文 参考訳(メタデータ) (2021-05-16T10:40:30Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。