論文の概要: Transformed ROIs for Capturing Visual Transformations in Videos
- arxiv url: http://arxiv.org/abs/2106.03162v1
- Date: Sun, 6 Jun 2021 15:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:04:47.348965
- Title: Transformed ROIs for Capturing Visual Transformations in Videos
- Title(参考訳): 映像の映像変換のための変換ROI
- Authors: Abhinav Rai, Fadime Sener, Angela Yao
- Abstract要約: 我々は、CNNのプラグイン・アンド・プレイモジュールであるTROIを紹介し、それ以外は空間と時間で区切られている中レベルの特徴表現を推論する。
我々は,大規模データセットである something-Something-V2 と Epic-Kitchens-100 の動作認識結果を得た。
- 参考スコア(独自算出の注目度): 31.88528313257094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling the visual changes that an action brings to a scene is critical for
video understanding. Currently, CNNs process one local neighbourhood at a time,
so contextual relationships over longer ranges, while still learnable, are
indirect. We present TROI, a plug-and-play module for CNNs to reason between
mid-level feature representations that are otherwise separated in space and
time. The module relates localized visual entities such as hands and
interacting objects and transforms their corresponding regions of interest
directly in the feature maps of convolutional layers. With TROI, we achieve
state-of-the-art action recognition results on the large-scale datasets
Something-Something-V2 and Epic-Kitchens-100.
- Abstract(参考訳): アクションがシーンにもたらした視覚的な変化のモデル化は、ビデオ理解に不可欠です。
現在、CNNは1回に1つの地区を処理しているため、長い範囲にわたる文脈的関係は学習可能であるが間接的である。
我々は、CNNのプラグイン・アンド・プレイモジュールであるTROIを紹介し、それ以外は空間と時間で区切られている中レベルの特徴表現を推論する。
このモジュールは、手や対話するオブジェクトなどの局所的な視覚エンティティを関連付け、畳み込み層の特徴マップに直接、それらの対応する領域を変換する。
TROIでは,大規模データセットである something-Something-V2 と Epic-Kitchens-100 の動作認識結果が得られる。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Continuous Scene Representations for Embodied AI [33.00565252990522]
連続シーン表現 (Continuous Scene Representations, CSR) は、空間内を移動するエンボディエージェントによって構築されたシーン表現である。
私たちの重要な洞察は、オブジェクト間のペアワイズ関係を潜在空間に埋め込むことです。
CSRは、エージェントがシーン内を移動するときにオブジェクトを追跡し、それに従って表現を更新し、部屋の構成の変更を検出する。
論文 参考訳(メタデータ) (2022-03-31T17:55:33Z) - Contextual Attention Network: Transformer Meets U-Net [0.0]
畳み込みニューラルネットワーク(CNN)はデファクトスタンダードとなり、医療画像セグメンテーションにおいて大きな成功を収めた。
しかし、CNNベースのメソッドは、長距離依存関係とグローバルコンテキスト接続を構築するのに失敗する。
最近の論文では、医療画像分割タスクにTransformerの変種を活用している。
論文 参考訳(メタデータ) (2022-03-02T21:10:24Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers [77.52828273633646]
暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマー用の新しいドロップインブロックを提案する。
また,入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
我々は、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2021-06-09T21:16:05Z) - IAUnet: Global Context-Aware Feature Learning for Person
Re-Identification [106.50534744965955]
IAUブロックは、グローバル空間、時間、チャネルコンテキストを組み込むことができる。
軽量でエンドツーエンドのトレーニングが可能で、既存のCNNに簡単に接続してIAUnetを形成することができる。
実験の結果、IAUnetは画像とビデオの両方で最先端のreIDタスクに対して好意的に機能することがわかった。
論文 参考訳(メタデータ) (2020-09-02T13:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。