Fugu-MT 論文翻訳(概要): Relation Modeling in Spatio-Temporal Action Localization

論文の概要: Relation Modeling in Spatio-Temporal Action Localization

arxiv url: http://arxiv.org/abs/2106.08061v1
Date: Tue, 15 Jun 2021 11:40:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-16 21:35:23.598791
Title: Relation Modeling in Spatio-Temporal Action Localization
Title（参考訳）: 時空間行動定位における関係モデリング
Authors: Yutong Feng, Jianwen Jiang, Ziyuan Huang, Zhiwu Qing, Xiang Wang, Shiwei Zhang, Mingqian Tang, Yue Gao
Abstract要約: 本稿では,CVPR 2021 における AVA-Kinetics Crossover Challenge of ActivityNet ワークショップの報告を行う。提案手法は,関係時間的行動検出に複数種類の関係手法を用いており,大規模ビデオデータセットのエンドツーエンドトレーニングにおいて,複数の関係モデリングを統合するためのトレーニング戦略を採用している。 AVA-Kineticsのテストセットで40.67 mAPを達成した。
参考スコア（独自算出の注目度）: 25.09128518931016
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents our solution to the AVA-Kinetics Crossover Challenge of ActivityNet workshop at CVPR 2021. Our solution utilizes multiple types of relation modeling methods for spatio-temporal action detection and adopts a training strategy to integrate multiple relation modeling in end-to-end training over the two large-scale video datasets. Learning with memory bank and finetuning for long-tailed distribution are also investigated to further improve the performance. In this paper, we detail the implementations of our solution and provide experiments results and corresponding discussions. We finally achieve 40.67 mAP on the test set of AVA-Kinetics.
Abstract（参考訳）: 本稿では,CVPR 2021 における AVA-Kinetics Crossover Challenge of ActivityNet ワークショップの報告を行う。提案手法では,複数種類の関係モデリング手法を時空間行動検出に利用し,大規模ビデオデータセットのエンドツーエンドトレーニングにおいて,複数の関係モデリングを統合するためのトレーニング戦略を採用する。メモリバンクによる学習やロングテール分布の微調整も研究され、さらに性能が向上した。本稿では,提案手法の実装を詳述し,実験結果と対応する議論について述べる。 AVA-Kineticsのテストセットで40.67 mAPを達成した。

関連論文リスト

Multi-Agent Model-Based Reinforcement Learning with Joint State-Action Learned Embeddings [10.36125908359289]
モデルに基づくマルチエージェント強化学習フレームワークを提案する。我々は変分自動エンコーダで訓練された世界モデルを設計し、状態-作用学習埋め込みを用いてモデルを増強する。想像された軌道とSALEに基づく行動値とを結合することにより、エージェントは彼らの選択が集団的な結果にどのように影響するかをより深く理解する。
論文参考訳（メタデータ） (2026-02-13T01:57:21Z)
FoundIR-v2: Optimizing Pre-Training Data Mixtures for Image Restoration Foundation Model [89.23522479092537]
本稿では,高容量拡散に基づく画像復元基盤モデルFoundIR-v2を提案する。データ混合法則を活用することにより、バランスの取れたデータセットの構成が保証される。本手法は最先端の手法に対して良好な性能を発揮する。
論文参考訳（メタデータ） (2025-12-10T03:10:52Z)
SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model [49.65930977591188]
マルチモーダル埋め込みモデルは、多様なクロスモーダルタスクに力を与える情報的統一表現を提供することを目的としている。 SAIL-Embeddingはオムニモーダルな埋め込み基盤モデルで、これらの問題に適切なトレーニング戦略とアーキテクチャ設計を通して対処する。具体的には、コンテンツ対応プログレッシブトレーニングは、さまざまな下流タスクへのモデルの適応性を高め、より豊かなクロスモーダル習熟度を習得することを目的としている。協調型レコメンデーション強化トレーニングは、シークエンス・ツー・テムとID・ツー・テムの埋め込みから知識を抽出することにより、レコメンデーションシナリオのマルチモーダル表現をさらに適応させる。
論文参考訳（メタデータ） (2025-10-14T16:43:22Z)
Combining Pre-Trained Models for Enhanced Feature Representation in Reinforcement Learning [16.04558746520946]
強化学習(Reinforcement Learning, RL)は、エージェントと環境との相互作用を通じて得られる累積報酬の最大化に焦点を当てている。我々は、複数の事前学習モデルの埋め込みを組み合わせ、リッチな状態表現を形成する新しいアーキテクチャである、Weight Sharing Attention (WSA)を提案する。
論文参考訳（メタデータ） (2025-07-09T18:13:52Z)
Action Recognition Using Temporal Shift Module and Ensemble Learning [0.0]
本稿では,aclICPR 2024におけるマルチモーダル視覚パターン認識ワークショップの一環として,マルチモーダル行動認識チャレンジ(Multi-Modal Action Recognition Challenge)のファーストランクソリューションを提案する。このコンペティションは、マルチモーダルソースから収集された20のアクションクラスの多様なデータセットを使用して、人間の行動を認識することを目的としている。提案手法は,20クラスにまたがる人的行動の認識において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-01-29T10:36:55Z)
An Active Learning Framework for Inclusive Generation by Large Language Models [32.16984263644299]
大規模言語モデル(LLM)は、多様なサブ集団を表すテキストを生成する。本稿では,知識蒸留により強化されたクラスタリングに基づくアクティブラーニングフレームワークを提案する。 2つの新しいデータセットをモデルトレーニングと組み合わせて構築し、ベースラインモデルよりも2%-10%の性能向上を示した。
論文参考訳（メタデータ） (2024-10-17T15:09:35Z)
The Solution for Temporal Action Localisation Task of Perception Test Challenge 2024 [27.30100635072298]
TALは、ビデオシーケンスを通して特定の時間間隔内でのアクションの識別と分類に焦点を当てている。我々は、SomethingV2データセットから重なり合うラベルを用いてトレーニングデータセットを拡張することにより、データ拡張手法を採用する。特徴抽出には、ビデオ機能にUTT、ビデオMAEv2、オーディオ機能にBEAT、CAV-MAEといった最先端モデルを用いる。
論文参考訳（メタデータ） (2024-10-08T01:07:21Z)
Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文参考訳（メタデータ） (2024-06-14T07:16:18Z)
Cross-Domain Knowledge Distillation for Low-Resolution Human Pose Estimation [31.970739018426645]
人間のポーズ推定の実践的応用では、低解像度の入力が頻繁に発生し、既存の最先端モデルでは低解像度の画像では不十分である。本研究は,高分解能モデルから知識を抽出することにより,低分解能モデルの性能向上に重点を置いている。
論文参考訳（メタデータ） (2024-05-19T04:57:17Z)
Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文参考訳（メタデータ） (2023-08-10T08:43:20Z)
An Information-Theoretic Approach for Estimating Scenario Generalization in Crowd Motion Prediction [27.10815774845461]
本稿では,ソース・クラウド・シナリオに基づいて学習したモデルの一般化を特徴付ける新しいスコアリング手法を提案する。インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性はダイバーシティスコアで取得される。提案手法の有効性をシミュレーションおよび実世界(ソース,ターゲット)の一般化タスクで検証した。
論文参考訳（メタデータ） (2022-11-02T01:39:30Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文参考訳（メタデータ） (2021-09-14T12:53:35Z)
Two-Stream Consensus Network: Submission to HACS Challenge 2021 Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文参考訳（メタデータ） (2021-06-21T03:36:36Z)
Ada-Segment: Automated Multi-loss Adaptation for Panoptic Segmentation [95.31590177308482]
我々は,トレーニング期間中に複数のトレーニング損失を柔軟に調整する自動マルチロス適応(ada-segment)を提案する。エンドツーエンドアーキテクチャにより、ada-segmentはハイパーパラメータを再チューニングすることなく、異なるデータセットに一般化する。 Ada-Segmentは、バニラベースラインからCOCOval分割に2.7%のパノラマ品質(PQ)改善をもたらし、COCOテストデブ分割に最新の48.5%PQ、ADE20Kデータセットに32.9%PQを達成しました。
論文参考訳（メタデータ） (2020-12-07T11:43:10Z)
Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs [30.36381338938319]
ニューラル常微分方程式(ODE)を用いた連続時間力学のモデリングのための2つの解を提案する。我々のモデルは、連続時間力学を正確に特徴付け、少量のデータを用いて高性能なポリシーを開発することができる。各種連続時間領域における手法の有効性を実験的に実証した。
論文参考訳（メタデータ） (2020-06-29T17:21:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。