論文の概要: Relation Modeling in Spatio-Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2106.08061v1
- Date: Tue, 15 Jun 2021 11:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 21:35:23.598791
- Title: Relation Modeling in Spatio-Temporal Action Localization
- Title(参考訳): 時空間行動定位における関係モデリング
- Authors: Yutong Feng, Jianwen Jiang, Ziyuan Huang, Zhiwu Qing, Xiang Wang,
Shiwei Zhang, Mingqian Tang, Yue Gao
- Abstract要約: 本稿では,CVPR 2021 における AVA-Kinetics Crossover Challenge of ActivityNet ワークショップの報告を行う。
提案手法は,関係時間的行動検出に複数種類の関係手法を用いており,大規模ビデオデータセットのエンドツーエンドトレーニングにおいて,複数の関係モデリングを統合するためのトレーニング戦略を採用している。
AVA-Kineticsのテストセットで40.67 mAPを達成した。
- 参考スコア(独自算出の注目度): 25.09128518931016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our solution to the AVA-Kinetics Crossover Challenge of
ActivityNet workshop at CVPR 2021. Our solution utilizes multiple types of
relation modeling methods for spatio-temporal action detection and adopts a
training strategy to integrate multiple relation modeling in end-to-end
training over the two large-scale video datasets. Learning with memory bank and
finetuning for long-tailed distribution are also investigated to further
improve the performance. In this paper, we detail the implementations of our
solution and provide experiments results and corresponding discussions. We
finally achieve 40.67 mAP on the test set of AVA-Kinetics.
- Abstract(参考訳): 本稿では,CVPR 2021 における AVA-Kinetics Crossover Challenge of ActivityNet ワークショップの報告を行う。
提案手法では,複数種類の関係モデリング手法を時空間行動検出に利用し,大規模ビデオデータセットのエンドツーエンドトレーニングにおいて,複数の関係モデリングを統合するためのトレーニング戦略を採用する。
メモリバンクによる学習やロングテール分布の微調整も研究され、さらに性能が向上した。
本稿では,提案手法の実装を詳述し,実験結果と対応する議論について述べる。
AVA-Kineticsのテストセットで40.67 mAPを達成した。
関連論文リスト
- An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。
本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。
2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文 参考訳(メタデータ) (2024-10-17T15:09:35Z) - The Solution for Temporal Action Localisation Task of Perception Test Challenge 2024 [27.30100635072298]
TALは、ビデオシーケンスを通して特定の時間間隔内でのアクションの識別と分類に焦点を当てている。
我々は、SomethingV2データセットから重なり合うラベルを用いてトレーニングデータセットを拡張することにより、データ拡張手法を採用する。
特徴抽出には、ビデオ機能にUTT、ビデオMAEv2、オーディオ機能にBEAT、CAV-MAEといった最先端モデルを用いる。
論文 参考訳(メタデータ) (2024-10-08T01:07:21Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Cross-Domain Knowledge Distillation for Low-Resolution Human Pose Estimation [31.970739018426645]
人間のポーズ推定の実践的応用では、低解像度の入力が頻繁に発生し、既存の最先端モデルでは低解像度の画像では不十分である。
本研究は,高分解能モデルから知識を抽出することにより,低分解能モデルの性能向上に重点を置いている。
論文 参考訳(メタデータ) (2024-05-19T04:57:17Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - An Information-Theoretic Approach for Estimating Scenario Generalization
in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。
インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。
提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文 参考訳(メタデータ) (2022-11-02T01:39:30Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - Ada-Segment: Automated Multi-loss Adaptation for Panoptic Segmentation [95.31590177308482]
我々は,トレーニング期間中に複数のトレーニング損失を柔軟に調整する自動マルチロス適応(ada-segment)を提案する。
エンドツーエンドアーキテクチャにより、ada-segmentはハイパーパラメータを再チューニングすることなく、異なるデータセットに一般化する。
Ada-Segmentは、バニラベースラインからCOCOval分割に2.7%のパノラマ品質(PQ)改善をもたらし、COCOテストデブ分割に最新の48.5%PQ、ADE20Kデータセットに32.9%PQを達成しました。
論文 参考訳(メタデータ) (2020-12-07T11:43:10Z) - Model-based Reinforcement Learning for Semi-Markov Decision Processes
with Neural ODEs [30.36381338938319]
ニューラル常微分方程式(ODE)を用いた連続時間力学のモデリングのための2つの解を提案する。
我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。
各種連続時間領域における手法の有効性を実験的に実証した。
論文 参考訳(メタデータ) (2020-06-29T17:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。