Fugu-MT 論文翻訳(概要): Action Shuffling for Weakly Supervised Temporal Localization

論文の概要: Action Shuffling for Weakly Supervised Temporal Localization

arxiv url: http://arxiv.org/abs/2105.04208v1
Date: Mon, 10 May 2021 09:05:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-11 14:52:17.464983
Title: Action Shuffling for Weakly Supervised Temporal Localization
Title（参考訳）: 弱教師付き時空間定位に対する行動シャッフル
Authors: Xiao-Yu Zhang, Haichao Shi, Changsheng Li, Xinchu Shi
Abstract要約: 本稿では,行動の秩序感応性と位置感応性を解析する。それらを自己拡張学習フレームワークに具体化し、弱教師付きアクションローカライゼーション性能を改善する。
参考スコア（独自算出の注目度）: 22.43209053892713
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weakly supervised action localization is a challenging task with extensive applications, which aims to identify actions and the corresponding temporal intervals with only video-level annotations available. This paper analyzes the order-sensitive and location-insensitive properties of actions, and embodies them into a self-augmented learning framework to improve the weakly supervised action localization performance. To be specific, we propose a novel two-branch network architecture with intra/inter-action shuffling, referred to as ActShufNet. The intra-action shuffling branch lays out a self-supervised order prediction task to augment the video representation with inner-video relevance, whereas the inter-action shuffling branch imposes a reorganizing strategy on the existing action contents to augment the training set without resorting to any external resources. Furthermore, the global-local adversarial training is presented to enhance the model's robustness to irrelevant noises. Extensive experiments are conducted on three benchmark datasets, and the results clearly demonstrate the efficacy of the proposed method.
Abstract（参考訳）: 弱い教師付きアクションローカライゼーションは、ビデオレベルのアノテーションのみを使用して、アクションと対応する時間間隔を識別することを目的として、広範囲のアプリケーションで難しいタスクである。本稿では,行動の順序に敏感で位置に敏感な特性を解析し,これらを自己拡張学習フレームワークに具体化し,弱制御された行動ローカライゼーション性能を向上させる。具体的には、ActShufNetと呼ばれるインターアクションシャッフルを用いた2分岐ネットワークアーキテクチャを提案する。イントラアクションシャッフルブランチは、インナービデオ関連で映像表現を増強するセルフ教師付き順序予測タスクを配置する一方、インターアクションシャッフルブランチは、既存のアクション内容に再構成戦略を課し、外部リソースに頼らずにトレーニングセットを増強する。さらに、無関係雑音に対するモデルの堅牢性を高めるために、グローバルローカルな対向訓練を行う。 3つのベンチマークデータセットを用いて実験を行い,提案手法の有効性を明らかにした。

関連論文リスト

Object-Centric Latent Action Learning [70.3173534658611]
本稿では,VideoSaur と LAPO に基づくオブジェクト中心の潜在行動学習手法を提案する。無関係な背景雑音から因果的エージェント・オブジェクトの相互作用を効果的に切り離し、トラクタによる性能劣化を低減する。 Distracting Control Suite を用いた予備実験では、オブジェクト分解に基づく遅延動作事前学習により、x2.7 による推論遅延動作の品質が向上し、ラベル付きアクションの小さなセットによる下流微調整の効率が向上し、平均 x2.6 での戻り率が向上することが示された。
論文参考訳（メタデータ） (2025-02-13T11:27:05Z)
Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T02:48:04Z)
Leveraging triplet loss for unsupervised action segmentation [0.0]
本稿では,アクションセグメンテーションタスクに適したアクション表現を,単一入力ビデオ自体から学習する,完全に教師なしのフレームワークを提案する。本手法は,三重項損失が類似度分布に作用する浅層ネットワークに根ざした深部距離学習手法である。このような状況下では、既存の教師なしアプローチと比較して、学習された行動表現の時間的境界を高い品質で回復することに成功した。
論文参考訳（メタデータ） (2023-04-13T11:10:16Z)
Weakly-Supervised Temporal Action Localization by Inferring Salient Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文参考訳（メタデータ） (2023-03-22T06:08:34Z)
Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文参考訳（メタデータ） (2023-03-21T10:40:13Z)
Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文参考訳（メタデータ） (2022-06-23T06:30:08Z)
Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文参考訳（メタデータ） (2021-10-20T14:45:13Z)
Hierarchical Modeling for Task Recognition and Action Segmentation in Weakly-Labeled Instructional Videos [6.187780920448871]
本稿では,弱いラベル付き指導ビデオにおけるタスク認識とアクションセグメンテーションに焦点を当てた。本稿では,意味的階層と時間的階層を利用して指導ビデオの上位レベルタスクを認識できる2ストリームフレームワークを提案する。提案手法では, 微粒な動作系列の推論を制約するために, 予測タスクを用いる。
論文参考訳（メタデータ） (2021-10-12T02:32:15Z)
Unsupervised Action Segmentation with Self-supervised Feature Learning and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文参考訳（メタデータ） (2021-05-29T00:29:40Z)
Learning Actor-centered Representations for Action Localization in Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文参考訳（メタデータ） (2021-04-29T06:06:58Z)
Weakly Supervised Temporal Action Localization Through Learning Explicit Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文参考訳（メタデータ） (2021-03-30T08:26:53Z)
Two-Stream Consensus Network for Weakly-Supervised Temporal Action Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文参考訳（メタデータ） (2020-10-22T10:53:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。