論文の概要: Multimodal Vision Transformers with Forced Attention for Behavior
Analysis
- arxiv url: http://arxiv.org/abs/2212.03968v1
- Date: Wed, 7 Dec 2022 21:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:34:32.040488
- Title: Multimodal Vision Transformers with Forced Attention for Behavior
Analysis
- Title(参考訳): 行動解析に強制注意を向けたマルチモーダル視覚変換器
- Authors: Tanay Agrawal, Michal Balazia, Philipp M\"uller, Fran\c{c}ois
Br\'emond
- Abstract要約: 本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human behavior understanding requires looking at minute details in the large
context of a scene containing multiple input modalities. It is necessary as it
allows the design of more human-like machines. While transformer approaches
have shown great improvements, they face multiple challenges such as lack of
data or background noise. To tackle these, we introduce the Forced Attention
(FAt) Transformer which utilize forced attention with a modified backbone for
input encoding and a use of additional inputs. In addition to improving the
performance on different tasks and inputs, the modification requires less time
and memory resources. We provide a model for a generalised feature extraction
for tasks concerning social signals and behavior analysis. Our focus is on
understanding behavior in videos where people are interacting with each other
or talking into the camera which simulates the first person point of view in
social interaction. FAt Transformers are applied to two downstream tasks:
personality recognition and body language recognition. We achieve
state-of-the-art results for Udiva v0.5, First Impressions v2 and MPII Group
Interaction datasets. We further provide an extensive ablation study of the
proposed architecture.
- Abstract(参考訳): 人間の行動を理解するには、複数の入力モダリティを含むシーンの大きなコンテキストの微妙な詳細を見る必要がある。
より人間的なマシンの設計を可能にするためである。
トランスフォーマーアプローチは大幅に改善されているが、データ不足やバックグラウンドノイズなど、さまざまな課題に直面している。
これらの問題に対処するために,入力エンコーディングと追加入力の使用に改良されたバックボーンを付加した強制注意変換器(FAt)を導入する。
異なるタスクや入力のパフォーマンス向上に加えて、修正には時間とメモリリソースの削減が必要となる。
社会的シグナルと行動分析に関するタスクを一般化した特徴抽出モデルを提案する。
私たちの焦点は、人々が互いに対話しているビデオの動作を理解することや、社会的相互作用における最初の視点をシミュレートするカメラに話しかけることにあります。
ファットトランスフォーマーは、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
さらに,提案アーキテクチャの広範なアブレーション研究を行った。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for
Human-Object Interaction Detection [20.983998911754792]
2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。
これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-04-17T09:44:54Z) - Multimodal Personality Recognition using Cross-Attention Transformer and
Behaviour Encoding [0.0]
利用可能なすべてのデータを利用するタスクのフレキシブルなモデルを提案する。
この課題は複雑な関係を伴い、特にビデオ処理に大規模なモデルを用いることを避けるため、動作符号化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-22T19:14:55Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。