論文の概要: MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily
Behavior Recognition in Group Settings
- arxiv url: http://arxiv.org/abs/2309.10765v1
- Date: Tue, 19 Sep 2023 17:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 13:23:12.406240
- Title: MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily
Behavior Recognition in Group Settings
- Title(参考訳): MAGIC-TBR:グループ設定における変圧器を用いた身体行動認識のためのマルチビューアテンションフュージョン
- Authors: Surbhi Madan, Rishabh Jain, Gulshan Sharma, Ramanathan Subramanian and
Abhinav Dhall
- Abstract要約: 本稿では,ビデオから抽出した特徴と対応する離散コサイン変換係数を変換器を用いたアプローチで組み合わせた多視点アテンション融合法MAGIC-TBRを提案する。
BBSIデータセットを用いて実験を行い,提案手法の有効性について検討した。
- 参考スコア(独自算出の注目度): 9.185580170954802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bodily behavioral language is an important social cue, and its automated
analysis helps in enhancing the understanding of artificial intelligence
systems. Furthermore, behavioral language cues are essential for active
engagement in social agent-based user interactions. Despite the progress made
in computer vision for tasks like head and body pose estimation, there is still
a need to explore the detection of finer behaviors such as gesturing, grooming,
or fumbling. This paper proposes a multiview attention fusion method named
MAGIC-TBR that combines features extracted from videos and their corresponding
Discrete Cosine Transform coefficients via a transformer-based approach. The
experiments are conducted on the BBSI dataset and the results demonstrate the
effectiveness of the proposed feature fusion with multiview attention. The code
is available at: https://github.com/surbhimadan92/MAGIC-TBR
- Abstract(参考訳): 身体行動言語は重要な社会的手がかりであり、その自動分析は人工知能システムの理解を深める助けとなる。
さらに、行動言語的手がかりは、ソーシャルエージェントベースのユーザインタラクションにおけるアクティブな関与に不可欠である。
頭と体のポーズ推定のようなタスクに対するコンピュータビジョンの進歩にもかかわらず、身振り、グルーミング、ファムブルといったより細かい行動の検出について検討する必要がある。
本稿では,ビデオから抽出した特徴と対応する離散コサイン変換係数を変換器を用いたアプローチで組み合わせた多視点アテンション融合法MAGIC-TBRを提案する。
bbsiデータセットを用いて実験を行い,多視点注意による特徴融合の有効性を示す。
コードは以下の通り。 https://github.com/surbhimadan92/MAGIC-TBR
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Multimodal Vision Transformers with Forced Attention for Behavior
Analysis [0.0]
本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-12-07T21:56:50Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。