論文の概要: Interactive Fusion of Multi-level Features for Compositional Activity
Recognition
- arxiv url: http://arxiv.org/abs/2012.05689v1
- Date: Thu, 10 Dec 2020 14:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:21:32.794516
- Title: Interactive Fusion of Multi-level Features for Compositional Activity
Recognition
- Title(参考訳): 合成活動認識のための多レベル特徴の相互融合
- Authors: Rui Yan, Lingxi Xie, Xiangbo Shu, and Jinhui Tang
- Abstract要約: インタラクティブな融合によってこの目標を達成する新しいフレームワークを提案する。
本フレームワークは,位置から出現までの特徴抽出,意味的特徴の相互作用,意味から位置への予測という3つのステップで実装する。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 100.75045558068874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To understand a complex action, multiple sources of information, including
appearance, positional, and semantic features, need to be integrated. However,
these features are difficult to be fused since they often differ significantly
in modality and dimensionality. In this paper, we present a novel framework
that accomplishes this goal by interactive fusion, namely, projecting features
across different spaces and guiding it using an auxiliary prediction task.
Specifically, we implement the framework in three steps, namely,
positional-to-appearance feature extraction, semantic feature interaction, and
semantic-to-positional prediction. We evaluate our approach on two action
recognition datasets, Something-Something and Charades. Interactive fusion
achieves consistent accuracy gain beyond off-the-shelf action recognition
algorithms. In particular, on Something-Else, the compositional setting of
Something-Something, interactive fusion reports a remarkable gain of 2.9% in
terms of top-1 accuracy.
- Abstract(参考訳): 複雑な動作を理解するには、外観、位置、意味的特徴を含む複数の情報ソースを統合する必要がある。
しかし、これらの特徴はしばしばモダリティや次元において大きく異なるため、融合することは困難である。
本稿では,異なる空間にまたがる特徴を投影し,補助的な予測タスクを用いて誘導することで,この目標を達成する新しいフレームワークを提案する。
具体的には,特徴抽出,意味的特徴相互作用,意味的特徴予測という3つのステップでフレームワークを実装した。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
interactive fusionは、市販のアクション認識アルゴリズム以上の一貫性のある精度を実現している。
特に something-else では、何か何かの合成設定では、interactive fusion は top-1 の精度で2.9%の大幅な向上を報告している。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Semantic-aware Video Representation for Few-shot Action Recognition [1.6486717871944268]
本稿では,これらの問題に対処するシンプルなセマンティック・アウェア・フューショット・アクション認識(SAFSAR)モデルを提案する。
提案手法は,3次元特徴抽出器と効果的な特徴融合方式を併用し,分類のための単純なコサイン類似性により,より優れた性能が得られることを示す。
様々な条件下での5つの挑戦的な数発アクション認識ベンチマークの実験により、提案したSAFSARモデルが最先端の性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-11-10T18:13:24Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment
Analysis [34.1489054082536]
本稿では,2つのタスク間の双方向相互作用を適切にモデル化する階層型対話型ネットワーク(HI-ASA)を提案する。
クロススティッチ機構を用いて、異なるタスク固有の特徴を入力として選択的に組み合わせ、適切な双方向インタラクションを保証する。
3つの実世界のデータセットの実験は、HI-ASAがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-24T03:03:49Z) - FINet: Dual Branches Feature Interaction for Partial-to-Partial Point
Cloud Registration [31.014309817116175]
FINetは,複数段階の入力を関連づける情報を有効化・強化する機能を備えた,機能間相互作用に基づく構造である。
実験により,本手法は従来の手法に比べて精度が高く,頑健性も高いことが示された。
論文 参考訳(メタデータ) (2021-06-07T10:15:02Z) - DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act
Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。
本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文 参考訳(メタデータ) (2020-08-16T14:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。