論文の概要: Unsupervised Speech Representation Learning for Behavior Modeling using
Triplet Enhanced Contextualized Networks
- arxiv url: http://arxiv.org/abs/2104.03899v1
- Date: Thu, 1 Apr 2021 22:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 21:52:49.735229
- Title: Unsupervised Speech Representation Learning for Behavior Modeling using
Triplet Enhanced Contextualized Networks
- Title(参考訳): トリプルト強化文脈ネットワークを用いた行動モデリングのための教師なし音声表現学習
- Authors: Haoqi Li, Brian Baucom, Shrikanth Narayanan, Panayiotis Georgiou
- Abstract要約: 本研究では,対話における人間の行動の定常的特性を利用して,音声から行動情報を抽出する表現学習手法を提案する。
本稿では,エンコーダ・デコーダをベースとしたDeep Contextualized Network (DCN) と,動作コンテキストをキャプチャするTriplet-Enhanced DCN (TE-DCN) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.957236790411585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech encodes a wealth of information related to human behavior and has been
used in a variety of automated behavior recognition tasks. However, extracting
behavioral information from speech remains challenging including due to
inadequate training data resources stemming from the often low occurrence
frequencies of specific behavioral patterns. Moreover, supervised behavioral
modeling typically relies on domain-specific construct definitions and
corresponding manually-annotated data, rendering generalizing across domains
challenging. In this paper, we exploit the stationary properties of human
behavior within an interaction and present a representation learning method to
capture behavioral information from speech in an unsupervised way. We
hypothesize that nearby segments of speech share the same behavioral context
and hence map onto similar underlying behavioral representations. We present an
encoder-decoder based Deep Contextualized Network (DCN) as well as a
Triplet-Enhanced DCN (TE-DCN) framework to capture the behavioral context and
derive a manifold representation, where speech frames with similar behaviors
are closer while frames of different behaviors maintain larger distances. The
models are trained on movie audio data and validated on diverse domains
including on a couples therapy corpus and other publicly collected data (e.g.,
stand-up comedy). With encouraging results, our proposed framework shows the
feasibility of unsupervised learning within cross-domain behavioral modeling.
- Abstract(参考訳): 音声は人間の行動に関する豊富な情報を符号化し、様々な自動行動認識タスクで使われている。
しかし,特定の行動パターンの出現頻度の低さから引き起こされる不適切なトレーニングデータ資源など,音声から行動情報を抽出することは課題である。
さらに、教師付き振舞いモデリングはドメイン固有の構造定義とそれに対応する手動の注釈付きデータに依存し、ドメイン間の一般化を困難にしている。
本稿では,対話における人間の行動の定常的特性を活用し,教師なしの方法で音声から行動情報をキャプチャする表現学習法を提案する。
我々は、近傍の音声セグメントが同じ行動文脈を共有していると仮定し、それゆえ同様の行動表現にマップする。
本稿では, エンコーダ・デコーダをベースとしたDeep Contextualized Network (DCN) と, 動作コンテキストを捉えるための Triplet-Enhanced DCN (TE-DCN) フレームワークを提案する。
モデルは映画のオーディオデータに基づいて訓練され、カップルセラピーコーパスやその他の公開データ(スタンドアップコメディなど)を含む様々な領域で検証される。
提案手法は,クロスドメイン行動モデリングにおける教師なし学習の実現可能性を示す。
関連論文リスト
- A study of animal action segmentation algorithms across supervised, unsupervised, and semi-supervised learning paradigms [3.597220870252727]
本稿では,教師付き深層ニューラルネットワークと教師なしグラフィカルモデルとのギャップを埋める半教師付きアクションセグメンテーションモデルを提案する。
時間的情報を加えることで、完全に管理された時間的畳み込みネットワークが、すべてのデータセットで監視されたメトリクスで最高のパフォーマンスを発揮することが分かりました。
論文 参考訳(メタデータ) (2024-07-23T14:22:16Z) - player2vec: A Language Modeling Approach to Understand Player Behavior in Games [2.2216044069240657]
過去の行動ログから潜在ユーザ表現を学習する手法は、eコマース、コンテンツストリーミング、その他の設定におけるレコメンデーションタスクの注目を集めている。
本稿では,長距離トランスフォーマーモデルをプレイヤーの行動データに拡張することで,この制限を克服する新しい手法を提案する。
ゲームにおける行動追跡の具体性について議論し,文中の単語に類似した方法でゲーム内イベントを視聴することで,前処理とトークン化のアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-05T17:29:47Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Pretraining on Interactions for Learning Grounded Affordance
Representations [22.290431852705662]
我々はニューラルネットワークを訓練し、シミュレーションされた相互作用において物体の軌道を予測する。
我々のネットワークの潜在表現は、観測された価格と観測されていない価格の両方を区別していることが示される。
提案する手法は,従来の語彙表現の形式的意味概念と統合可能な言語学習の手法である。
論文 参考訳(メタデータ) (2022-07-05T19:19:53Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Local and non-local dependency learning and emergence of rule-like
representations in speech data by Deep Convolutional Generative Adversarial
Networks [0.0]
本稿では、音声データにおける局所的および非局所的依存関係に対するGANのトレーニングは、ディープニューラルネットワークが連続データをどのように識別するかについての洞察を与える。
論文 参考訳(メタデータ) (2020-09-27T00:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。