論文の概要: No-audio speaking status detection in crowded settings via visual
pose-based filtering and wearable acceleration
- arxiv url: http://arxiv.org/abs/2211.00549v1
- Date: Tue, 1 Nov 2022 15:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:42:05.240499
- Title: No-audio speaking status detection in crowded settings via visual
pose-based filtering and wearable acceleration
- Title(参考訳): 視覚的ポーズに基づくフィルタリングとウェアラブル・アクセラレーションによる混在環境における非音声発話状態検出
- Authors: Jose Vargas-Quiros, Laura Cabrera-Quiros, Hayley Hung
- Abstract要約: ビデオとウェアラブルのセンサーは、邪魔にならないプライバシー保護の方法で話すことを認識できる。
ポーズキーポイントに関する局所的特徴の選択は一般化性能に肯定的な影響を及ぼすことを示す。
また,ウェアラブルセンサを用いて測定した加速度を同じタスクに利用し,両手法を組み合わせたマルチモーダルアプローチを提案する。
- 参考スコア(独自算出の注目度): 8.710774926703321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing who is speaking in a crowded scene is a key challenge towards the
understanding of the social interactions going on within. Detecting speaking
status from body movement alone opens the door for the analysis of social
scenes in which personal audio is not obtainable. Video and wearable sensors
make it possible recognize speaking in an unobtrusive, privacy-preserving way.
When considering the video modality, in action recognition problems, a bounding
box is traditionally used to localize and segment out the target subject, to
then recognize the action taking place within it. However, cross-contamination,
occlusion, and the articulated nature of the human body, make this approach
challenging in a crowded scene. Here, we leverage articulated body poses for
subject localization and in the subsequent speech detection stage. We show that
the selection of local features around pose keypoints has a positive effect on
generalization performance while also significantly reducing the number of
local features considered, making for a more efficient method. Using two
in-the-wild datasets with different viewpoints of subjects, we investigate the
role of cross-contamination in this effect. We additionally make use of
acceleration measured through wearable sensors for the same task, and present a
multimodal approach combining both methods.
- Abstract(参考訳): 混み合った場面で誰が話しているかを認識することは、内部の社会的相互作用を理解する上で重要な課題である。
身体運動だけでの発話状況の検出は、個人の音声が得られない社会的場面の分析の扉を開く。
ビデオとウェアラブルのセンサーは、邪魔にならないプライバシー保護の方法で話すことを認識できる。
映像モダリティを考慮すれば、アクション認識問題において、バウンディングボックスは伝統的に対象対象をローカライズし、セグメンテーションし、その内部で起こるアクションを認識するために使用される。
しかし, クロス汚染, 閉塞, 人体の明瞭な性質は, 混み合った場面でこのアプローチを困難にしている。
そこで本研究では,音素ポーズを主観的局所化と後続の音声検出の段階に活用する。
提案手法では,ポーズキーポイントに関する局所特徴の選択が一般化性能に肯定的な影響を及ぼすとともに,検討対象の局所特徴量を大幅に削減し,より効率的な手法であることを示す。
被験者の視点が異なる2つのインザワイルドデータセットを用いて,この効果におけるクロス汚染の役割について検討した。
さらに,ウェアラブルセンサで測定した加速度を同じタスクに利用し,両手法を組み合わせたマルチモーダルアプローチを提案する。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Detecting Events in Crowds Through Changes in Geometrical Dimensions of
Pedestrians [0.6390468088226495]
イベントが群衆の行動の変化を引き起こす場合と、群衆とその動きがほとんど変化しない2つのビデオシーケンスの両方を含む、群衆行動の3つの異なるシナリオについて検討する。
ビデオと個々の歩行者の追跡(前処理段階)の両方で、Geomindを使用してシーン、特に幾何学的特徴、個性、感情に関する重要なデータを抽出する。
次に、各人物がイベントを識別したり、現実的な群衆をモデル化するための基盤として使用できる、時間の関数としての働き方に大きな変化を求める。
論文 参考訳(メタデータ) (2023-12-11T16:18:56Z) - Egocentric Auditory Attention Localization in Conversations [25.736198724595486]
本稿では,エゴセントリックなビデオとマルチチャンネルオーディオを用いて,カメラ装着者の聴覚的注意のヒートマップを予測するエンド・ツー・エンドのディープラーニング手法を提案する。
提案手法では,シーンの特徴と全体的推論を利用して予測を行い,難易度の高い多話者会話データセット上でのベースラインのセットを上回ります。
論文 参考訳(メタデータ) (2023-03-28T14:52:03Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization [13.144367063836597]
本稿では,音声活動の検出と局所化結果の堅牢性を実現するための,エンドツーエンドのディープラーニング手法を提案する。
実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-01-06T05:40:16Z) - Regional Attention Network (RAN) for Head Pose and Fine-grained Gesture
Recognition [9.131161856493486]
本研究では,CNN(Convolutional Neural Network) である RAN (End-to-end textbfRegional Attention Network) を提案する。
我々の領域は1つ以上の連続した細胞から構成されており、HOG(Histogram of Oriented Gradient)ディスクリプタの計算に使用される戦略に適応している。
提案手法は、異なる指標のかなりの差で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-01-17T10:14:28Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。