論文の概要: AssembleNet++: Assembling Modality Representations via Attention
Connections
- arxiv url: http://arxiv.org/abs/2008.08072v1
- Date: Tue, 18 Aug 2020 17:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 20:38:52.533842
- Title: AssembleNet++: Assembling Modality Representations via Attention
Connections
- Title(参考訳): AssembleNet++: 注意接続によるモダリティ表現の組み立て
- Authors: Michael S. Ryoo, AJ Piergiovanni, Juhana Kangaspunta, Anelia Angelova
- Abstract要約: i)セマンティックオブジェクト情報と生の外観と動きの特徴の相互作用を学習し、(ii)ネットワークの各畳み込みブロックにおける特徴の重要性をよりよく学習するために注意を配置する。
ピアアテンションと呼ばれる新しいネットワークコンポーネントを導入し、別のブロックや入力モダリティを使って動的にアテンションウェイトを学習する。
- 参考スコア(独自算出の注目度): 83.50084190050093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We create a family of powerful video models which are able to: (i) learn
interactions between semantic object information and raw appearance and motion
features, and (ii) deploy attention in order to better learn the importance of
features at each convolutional block of the network. A new network component
named peer-attention is introduced, which dynamically learns the attention
weights using another block or input modality. Even without pre-training, our
models outperform the previous work on standard public activity recognition
datasets with continuous videos, establishing new state-of-the-art. We also
confirm that our findings of having neural connections from the object modality
and the use of peer-attention is generally applicable for different existing
architectures, improving their performances. We name our model explicitly as
AssembleNet++. The code will be available at:
https://sites.google.com/corp/view/assemblenet/
- Abstract(参考訳): 私たちは、強力なビデオモデルのファミリーを作ります。
(i)意味的対象情報と生の外観・動きの特徴の相互作用を学習する、及び
(ii)ネットワークの各畳み込みブロックにおける機能の重要性をよりよく知るために注意を配置する。
ピアアテンションと呼ばれる新しいネットワークコンポーネントを導入し、別のブロックや入力モダリティを使って動的にアテンションウェイトを学習する。
事前トレーニングなしでも、当社のモデルは、通常のパブリックアクティビティ認識データセットを連続ビデオで上回り、新しい最先端技術を確立しました。
また、対象のモダリティとピアアテンションの使用によるニューラルネットワークの発見が、既存の異なるアーキテクチャに適用可能であることを確認し、パフォーマンスを改善した。
当社のモデルを明示的にAssembleNet++と名付けます。
コードは以下の通り。 https://sites.google.com/corp/view/assemblenet/
関連論文リスト
- Connectivity-Inspired Network for Context-Aware Recognition [1.049712834719005]
視覚認知に対処するために,生体脳の回路モチーフを取り入れることの効果に焦点をあてる。
私たちの畳み込みアーキテクチャは、人間の皮質と皮質下の流れの接続にインスパイアされています。
我々はコンテキスト認識をモデル化するための新しいプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2024-09-06T15:42:10Z) - ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - Relational Self-Attention: What's Missing in Attention for Video
Understanding [52.38780998425556]
リレーショナル・セルフアテンション(RSA)と呼ばれるリレーショナル・フィーチャー・トランスフォーメーションを導入する。
我々の実験およびアブレーション研究により、RSAネットワークは、畳み込みや自己意図的ネットワークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:36:11Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - IAUnet: Global Context-Aware Feature Learning for Person
Re-Identification [106.50534744965955]
IAUブロックは、グローバル空間、時間、チャネルコンテキストを組み込むことができる。
軽量でエンドツーエンドのトレーニングが可能で、既存のCNNに簡単に接続してIAUnetを形成することができる。
実験の結果、IAUnetは画像とビデオの両方で最先端のreIDタスクに対して好意的に機能することがわかった。
論文 参考訳(メタデータ) (2020-09-02T13:07:10Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。