論文の概要: Speech2Action: Cross-modal Supervision for Action Recognition
- arxiv url: http://arxiv.org/abs/2003.13594v1
- Date: Mon, 30 Mar 2020 16:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 08:02:34.627001
- Title: Speech2Action: Cross-modal Supervision for Action Recognition
- Title(参考訳): speech2action: 行動認識のためのクロスモーダル監督
- Authors: Arsha Nagrani, Chen Sun, David Ross, Rahul Sukthankar, Cordelia
Schmid, Andrew Zisserman
- Abstract要約: BERTベースのSpeech2Action分類器を1000以上の映画画面上で訓練する。
次に,このモデルを大容量映画コーパスの音声セグメントに適用する。
このモデルの予測を用いて,800K以上のビデオクリップに対して弱い動作ラベルを求める。
- 参考スコア(独自算出の注目度): 127.10071447772407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Is it possible to guess human action from dialogue alone? In this work we
investigate the link between spoken words and actions in movies. We note that
movie screenplays describe actions, as well as contain the speech of characters
and hence can be used to learn this correlation with no additional supervision.
We train a BERT-based Speech2Action classifier on over a thousand movie
screenplays, to predict action labels from transcribed speech segments. We then
apply this model to the speech segments of a large unlabelled movie corpus
(188M speech segments from 288K movies). Using the predictions of this model,
we obtain weak action labels for over 800K video clips. By training on these
video clips, we demonstrate superior action recognition performance on standard
action recognition benchmarks, without using a single manually labelled action
example.
- Abstract(参考訳): 対話だけで人間の行動を推測することは可能か?
本研究では,映画における話し言葉と行動の関係について検討する。
映画の脚本では、アクションを記述し、キャラクタのスピーチも含んでいるので、追加の監督なしにこの相関を学習することができる。
BERTベースのSpeech2Action分類器を1000以上の映画画面上で訓練し、転写された音声セグメントからアクションラベルを予測する。
次に,このモデルを288kの映画コーパスの音声セグメント(188mの音声セグメント)に適用する。
このモデルの予測を用いて,800K以上のビデオクリップに対して弱い動作ラベルを求める。
これらのビデオクリップをトレーニングすることにより、手動でラベル付けされたアクション例を用いることなく、標準アクション認識ベンチマークにおいて優れたアクション認識性能を示す。
関連論文リスト
- Pseudo-labeling with Keyword Refining for Few-Supervised Video Captioning [42.0725330677271]
本稿では,語彙制約付き擬似ラベルモジュールとキーワード修正字幕モジュールからなる動画キャプションフレームワークを提案する。
いくつかのベンチマークの実験では、少数の教師付きシナリオと完全な教師付きシナリオの両方において提案されたアプローチの利点を実証している。
論文 参考訳(メタデータ) (2024-11-06T17:11:44Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Movie101: A New Movie Understanding Benchmark [47.24519006577205]
大規模な中国の映画ベンチマーク「Movie101」を構築した。
映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。
両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-20T08:43:51Z) - An Action Is Worth Multiple Words: Handling Ambiguity in Action
Recognition [18.937012620464465]
単一正の学習ラベルのみから複数ラベルの行動認識モデルを訓練する上での課題に対処する。
列車内の類似事例からサンプル化した擬似訓練例を生成するための2つの手法を提案する。
複数の動詞ラベルでEPIC-Kitchens-100の検証セットのサブセットを手動でアノテートすることで、新しい評価ベンチマークを作成する。
論文 参考訳(メタデータ) (2022-10-10T18:06:43Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - BABEL: Bodies, Action and Behavior with English Labels [53.83774092560076]
モーキャップシーケンスで実行される動作を記述した言語ラベル付き大規模データセットであるBABELを提案する。
BABELには28k以上のシーケンスラベルと63kのフレームラベルがあり、250以上のユニークなアクションカテゴリに属している。
ベンチマークとしてBABELの価値を実証し、3次元動作認識におけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2021-06-17T17:51:14Z) - Fine-grained Emotion and Intent Learning in Movie Dialogues [1.2891210250935146]
OpenSubtitlesコーパスから取得した1Mの対話からなる、新しい大規模感情対話データセットを提案する。
本研究は,映画の字幕の前処理や,アノテートに優れた映画対話の選択に使用される複雑なパイプラインを説明する。
このような感情対話の分類は、データセットのサイズと微粒な感情と意図のカテゴリーの両方において試みられたことがない。
論文 参考訳(メタデータ) (2020-12-25T20:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。