論文の概要: Backchannel Detection and Agreement Estimation from Video with
Transformer Networks
- arxiv url: http://arxiv.org/abs/2306.01656v1
- Date: Fri, 2 Jun 2023 16:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 14:24:41.086496
- Title: Backchannel Detection and Agreement Estimation from Video with
Transformer Networks
- Title(参考訳): 変圧器ネットワークを用いたビデオからのバックチャネル検出とコンセンサス推定
- Authors: Ahmed Amer, Chirag Bhuvaneshwara, Gowtham K. Addluri, Mohammed M.
Shaik, Vedant Bonde, Philipp M\"uller
- Abstract要約: リスナーはショート・インタージェクション(いわゆるバックチャネル)を使用して注意や合意を表明する。
視覚行動からのバックチャネル分析の最先端的アプローチは、身体のポーズに基づく特徴と、顔行動に基づく特徴の2つのタイプの特徴を利用する。
本稿では、バックチャネルの検出と、バックチャネルで表現された合意を推定するタスクに対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Listeners use short interjections, so-called backchannels, to signify
attention or express agreement. The automatic analysis of this behavior is of
key importance for human conversation analysis and interactive conversational
agents. Current state-of-the-art approaches for backchannel analysis from
visual behavior make use of two types of features: features based on body pose
and features based on facial behavior. At the same time, transformer neural
networks have been established as an effective means to fuse input from
different data sources, but they have not yet been applied to backchannel
analysis. In this work, we conduct a comprehensive evaluation of multi-modal
transformer architectures for automatic backchannel analysis based on pose and
facial information. We address both the detection of backchannels as well as
the task of estimating the agreement expressed in a backchannel. In evaluations
on the MultiMediate'22 backchannel detection challenge, we reach 66.4% accuracy
with a one-layer transformer architecture, outperforming the previous state of
the art. With a two-layer transformer architecture, we furthermore set a new
state of the art (0.0604 MSE) on the task of estimating the amount of agreement
expressed in a backchannel.
- Abstract(参考訳): リスナーはショート・インタージェクション(いわゆるバックチャネル)を使用して注意や合意を表現する。
この動作の自動解析は、人間の会話分析と対話型会話エージェントにとって重要である。
視覚行動からのバックチャネル分析の最先端的アプローチは、身体のポーズに基づく特徴と、顔行動に基づく特徴の2つのタイプの特徴を利用する。
同時に、トランスフォーマーニューラルネットワークは、異なるデータソースからの入力を融合する有効な手段として確立されているが、バックチャネル解析には適用されていない。
本研究では,ポーズと顔情報に基づくバックチャネル自動解析のためのマルチモーダルトランスフォーマーアーキテクチャの包括的評価を行う。
我々は、バックチャネルの検出と、バックチャネルで表現された合意を推定するタスクの両方に対処する。
MultiMediate'22のバックチャネル検出課題の評価では、1層トランスフォーマーアーキテクチャで66.4%の精度に達し、従来の技術よりも優れていた。
2層トランスフォーマーアーキテクチャにより,バックチャネルで表現されるアグリーメントの量を推定するタスクに対して,さらに新たな状態(0.0604 mse)を設定した。
関連論文リスト
- In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Few-Shot Object Detection with Fully Cross-Transformer [35.49840687007507]
Few-shot Object Detection (FSOD) は、ごく少数のトレーニング例を用いて、新しいオブジェクトを検出することを目的としている。
本稿では,機能バックボーンと検出ヘッドの両方にクロストランスフォーマーを組み込むことにより,FSODのための新しいFCTモデルを提案する。
本モデルでは,複数レベルのインタラクションを導入することにより,2つのブランチ間の数ショットの類似性学習を改善することができる。
論文 参考訳(メタデータ) (2022-03-28T18:28:51Z) - Efficient Two-Stage Detection of Human-Object Interactions with a Novel
Unary-Pairwise Transformer [41.44769642537572]
Unary-Pairwise Transformerは、HOIのユニタリおよびペアワイズ表現を利用する2段階の検出器である。
本手法はHICO-DETおよびV-COCOデータセット上で評価し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-03T10:52:06Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。