論文の概要: Interactive Fusion of Multi-level Features for Compositional Activity
Recognition
- arxiv url: http://arxiv.org/abs/2012.05689v1
- Date: Thu, 10 Dec 2020 14:17:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 06:21:32.794516
- Title: Interactive Fusion of Multi-level Features for Compositional Activity
Recognition
- Title(参考訳): 合成活動認識のための多レベル特徴の相互融合
- Authors: Rui Yan, Lingxi Xie, Xiangbo Shu, and Jinhui Tang
- Abstract要約: インタラクティブな融合によってこの目標を達成する新しいフレームワークを提案する。
本フレームワークは,位置から出現までの特徴抽出,意味的特徴の相互作用,意味から位置への予測という3つのステップで実装する。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 100.75045558068874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To understand a complex action, multiple sources of information, including
appearance, positional, and semantic features, need to be integrated. However,
these features are difficult to be fused since they often differ significantly
in modality and dimensionality. In this paper, we present a novel framework
that accomplishes this goal by interactive fusion, namely, projecting features
across different spaces and guiding it using an auxiliary prediction task.
Specifically, we implement the framework in three steps, namely,
positional-to-appearance feature extraction, semantic feature interaction, and
semantic-to-positional prediction. We evaluate our approach on two action
recognition datasets, Something-Something and Charades. Interactive fusion
achieves consistent accuracy gain beyond off-the-shelf action recognition
algorithms. In particular, on Something-Else, the compositional setting of
Something-Something, interactive fusion reports a remarkable gain of 2.9% in
terms of top-1 accuracy.
- Abstract(参考訳): 複雑な動作を理解するには、外観、位置、意味的特徴を含む複数の情報ソースを統合する必要がある。
しかし、これらの特徴はしばしばモダリティや次元において大きく異なるため、融合することは困難である。
本稿では,異なる空間にまたがる特徴を投影し,補助的な予測タスクを用いて誘導することで,この目標を達成する新しいフレームワークを提案する。
具体的には,特徴抽出,意味的特徴相互作用,意味的特徴予測という3つのステップでフレームワークを実装した。
我々は,2つの行動認識データセット,SomethingとCharadesに対するアプローチを評価した。
interactive fusionは、市販のアクション認識アルゴリズム以上の一貫性のある精度を実現している。
特に something-else では、何か何かの合成設定では、interactive fusion は top-1 の精度で2.9%の大幅な向上を報告している。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - Semantic-aware Video Representation for Few-shot Action Recognition [1.6486717871944268]
本稿では,これらの問題に対処するシンプルなセマンティック・アウェア・フューショット・アクション認識(SAFSAR)モデルを提案する。
提案手法は,3次元特徴抽出器と効果的な特徴融合方式を併用し,分類のための単純なコサイン類似性により,より優れた性能が得られることを示す。
様々な条件下での5つの挑戦的な数発アクション認識ベンチマークの実験により、提案したSAFSARモデルが最先端の性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-11-10T18:13:24Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment
Analysis [34.1489054082536]
本稿では,2つのタスク間の双方向相互作用を適切にモデル化する階層型対話型ネットワーク(HI-ASA)を提案する。
クロススティッチ機構を用いて、異なるタスク固有の特徴を入力として選択的に組み合わせ、適切な双方向インタラクションを保証する。
3つの実世界のデータセットの実験は、HI-ASAがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-24T03:03:49Z) - FINet: Dual Branches Feature Interaction for Partial-to-Partial Point
Cloud Registration [31.014309817116175]
FINetは,複数段階の入力を関連づける情報を有効化・強化する機能を備えた,機能間相互作用に基づく構造である。
実験により,本手法は従来の手法に比べて精度が高く,頑健性も高いことが示された。
論文 参考訳(メタデータ) (2021-06-07T10:15:02Z) - DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act
Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。
本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文 参考訳(メタデータ) (2020-08-16T14:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。