論文の概要: How Video Meetings Change Your Expression
- arxiv url: http://arxiv.org/abs/2406.00955v1
- Date: Mon, 3 Jun 2024 03:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:37:18.764272
- Title: How Video Meetings Change Your Expression
- Title(参考訳): ビデオ会議はどのように表現を変えるか
- Authors: Sumit Sarin, Utkarsh Mall, Purva Tendulkar, Carl Vondrick,
- Abstract要約: 人のビデオが2つあるとすると、各セットに特有の時間的パターンを自動的に見つけ出そうとする。
我々は、生成ドメイン翻訳のレンズを通してこの問題に取り組む。
本稿では,F2F(F2F)とVC(Voice-calls)の対話行動の違いを,本手法が検出できることを実証する。
- 参考スコア(独自算出の注目度): 29.898716559065672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Do our facial expressions change when we speak over video calls? Given two unpaired sets of videos of people, we seek to automatically find spatio-temporal patterns that are distinctive of each set. Existing methods use discriminative approaches and perform post-hoc explainability analysis. Such methods are insufficient as they are unable to provide insights beyond obvious dataset biases, and the explanations are useful only if humans themselves are good at the task. Instead, we tackle the problem through the lens of generative domain translation: our method generates a detailed report of learned, input-dependent spatio-temporal features and the extent to which they vary between the domains. We demonstrate that our method can discover behavioral differences between conversing face-to-face (F2F) and on video-calls (VCs). We also show the applicability of our method on discovering differences in presidential communication styles. Additionally, we are able to predict temporal change-points in videos that decouple expressions in an unsupervised way, and increase the interpretability and usefulness of our model. Finally, our method, being generative, can be used to transform a video call to appear as if it were recorded in a F2F setting. Experiments and visualizations show our approach is able to discover a range of behaviors, taking a step towards deeper understanding of human behaviors.
- Abstract(参考訳): ビデオ通話で話すと表情が変わるのか?
人のビデオが2つあるとすると、各セットに特有の時空間パターンを自動的に見つけ出そうとする。
既存の方法は差別的アプローチを使用して、ポストホックな説明可能性分析を行う。
このような手法は、明らかなデータセットバイアス以上の洞察を与えることができないため不十分であり、その説明は、人間自身がそのタスクに長けている場合に限り有用である。
その代わりに、生成ドメイン翻訳のレンズを用いてこの問題に取り組む。本手法は、学習された、入力に依存した時空間的特徴の詳細なレポートと、それらがドメイン間で変化する範囲を出力する。
本研究では,F2F(F2F)とVC(Voice-calls)の対話行動の違いを,本手法が検出できることを実証する。
また,本手法が大統領通信方式の違いを発見する上での有効性を示す。
さらに、教師なしの方法で表現を分離するビデオにおける時間的変化点を予測でき、モデルの解釈可能性や有用性を高めることができる。
最後に,F2F設定で記録したようにビデオ通話を変換して表示する手法を提案する。
実験と可視化は、我々のアプローチが様々な行動を発見し、人間の行動をより深く理解するための一歩を踏み出したことを示している。
関連論文リスト
- TimeBalance: Temporally-Invariant and Temporally-Distinctive Video
Representations for Semi-Supervised Action Recognition [68.53072549422775]
学生教師による半教師付き学習フレームワークTimeBalanceを提案する。
時間的に不変であり,時間的に異なる教師から知識を抽出する。
提案手法は,3つの動作認識ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T19:28:54Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。