論文の概要: VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation
- arxiv url: http://arxiv.org/abs/2307.03918v1
- Date: Sat, 8 Jul 2023 06:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 16:39:52.387100
- Title: VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation
- Title(参考訳): VS-TransGRU:エゴセントリックアクション予測のためのビジュアルセマンティックフュージョンにより強化された新しいトランスフォーマーGRUベースのフレームワーク
- Authors: Congqi Cao and Ze Sun and Qinyi Lv and Lingtong Min and Yanning Zhang
- Abstract要約: エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.41226268323332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric action anticipation is a challenging task that aims to make
advanced predictions of future actions from current and historical observations
in the first-person view. Most existing methods focus on improving the model
architecture and loss function based on the visual input and recurrent neural
network to boost the anticipation performance. However, these methods, which
merely consider visual information and rely on a single network architecture,
gradually reach a performance plateau. In order to fully understand what has
been observed and capture the dependencies between current observations and
future actions well enough, we propose a novel visual-semantic fusion enhanced
and Transformer GRU-based action anticipation framework in this paper. Firstly,
high-level semantic information is introduced to improve the performance of
action anticipation for the first time. We propose to use the semantic features
generated based on the class labels or directly from the visual observations to
augment the original visual features. Secondly, an effective visual-semantic
fusion module is proposed to make up for the semantic gap and fully utilize the
complementarity of different modalities. Thirdly, to take advantage of both the
parallel and autoregressive models, we design a Transformer based encoder for
long-term sequential modeling and a GRU-based decoder for flexible iteration
decoding. Extensive experiments on two large-scale first-person view datasets,
i.e., EPIC-Kitchens and EGTEA Gaze+, validate the effectiveness of our proposed
method, which achieves new state-of-the-art performance, outperforming previous
approaches by a large margin.
- Abstract(参考訳): エゴセントリックな行動予測は、一人称視点で現在の歴史的観察から将来の行動を予測することを目的とした課題である。
既存のほとんどの手法は、予測性能を高めるために視覚入力と繰り返しニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
しかし、視覚情報のみを考慮し、単一のネットワークアーキテクチャに依存するこれらの手法は、徐々に性能の高原に達する。
本稿では,現在の観測と今後の行動の依存関係を十分に把握するために,新しい視覚・意味融合とトランスフォーマーGRUに基づく行動予測フレームワークを提案する。
まず、アクション予測の性能を初めて向上するために、ハイレベルなセマンティック情報を導入する。
我々は,クラスラベルに基づいて生成した意味的特徴や,視覚観察から直接生成した意味的特徴を用いて,元の視覚的特徴を補うことを提案する。
次に, 意味的ギャップを補い, 相補性を十分に活用するために, 効果的な視覚・視覚融合モジュールを提案する。
第3に、並列モデルと自己回帰モデルの両方を活用するために、長期連続モデリングのためのTransformerベースのエンコーダと柔軟な反復復号のためのGRUベースのデコーダを設計する。
EPIC-Kitchens と EGTEA Gaze+ の2つの大規模一対人ビューデータセットに対する大規模な実験により,提案手法の有効性が検証された。
関連論文リスト
- A Closer Look at GAN Priors: Exploiting Intermediate Features for Enhanced Model Inversion Attacks [43.98557963966335]
Model Inversion (MI)攻撃は、出力情報を利用して、リリースされたモデルからプライバシーに敏感なトレーニングデータを再構築することを目的としている。
GAN(Generative Adversarial Network)の最近の進歩は、MI攻撃の性能向上に大きく貢献している。
本稿では,GAN構造を分解し,中間ブロック間の特徴を利用する中間特徴拡張生成モデル変換(IF-GMI)を提案する。
論文 参考訳(メタデータ) (2024-07-18T19:16:22Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Inducing Semantic Grouping of Latent Concepts for Explanations: An
Ante-Hoc Approach [18.170504027784183]
我々は,潜伏状態を利用してモデルの異なる部分を適切に修正することにより,より良い説明が得られ,予測性能が向上することを示した。
また,2つの異なる自己スーパービジョン技術を用いて,考察対象の自己スーパービジョンのタイプに関連する意味ある概念を抽出する手法を提案した。
論文 参考訳(メタデータ) (2021-08-25T07:09:57Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。