論文の概要: A Survey on Deep Multi-modal Learning for Body Language Recognition and
Generation
- arxiv url: http://arxiv.org/abs/2308.08849v1
- Date: Thu, 17 Aug 2023 08:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:24:51.428988
- Title: A Survey on Deep Multi-modal Learning for Body Language Recognition and
Generation
- Title(参考訳): 身体言語認識・生成のための深層マルチモーダル学習に関する研究
- Authors: Li Liu, Lufei Gao, Wentao Lei, Fengji Ma, Xiaotian Lin, Jinting Wang
- Abstract要約: ボディランゲージ(Body language, BL)とは、身体の動き、ジェスチャー、表情、姿勢によって表現される非言語コミュニケーションのこと。
深層マルチモーダル学習技術は,これらのBLの多様な側面を理解し解析する上で有望であることを示す。
いくつかの共通BLは、手話(SL)、キュードスピーチ(CS)、コスペーチ(CoS)、トーキングヘッド(TH)とみなされる。
- 参考スコア(独自算出の注目度): 5.8522989442606566
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Body language (BL) refers to the non-verbal communication expressed through
physical movements, gestures, facial expressions, and postures. It is a form of
communication that conveys information, emotions, attitudes, and intentions
without the use of spoken or written words. It plays a crucial role in
interpersonal interactions and can complement or even override verbal
communication. Deep multi-modal learning techniques have shown promise in
understanding and analyzing these diverse aspects of BL. The survey emphasizes
their applications to BL generation and recognition. Several common BLs are
considered i.e., Sign Language (SL), Cued Speech (CS), Co-speech (CoS), and
Talking Head (TH), and we have conducted an analysis and established the
connections among these four BL for the first time. Their generation and
recognition often involve multi-modal approaches. Benchmark datasets for BL
research are well collected and organized, along with the evaluation of SOTA
methods on these datasets. The survey highlights challenges such as limited
labeled data, multi-modal learning, and the need for domain adaptation to
generalize models to unseen speakers or languages. Future research directions
are presented, including exploring self-supervised learning techniques,
integrating contextual information from other modalities, and exploiting
large-scale pre-trained multi-modal models. In summary, this survey paper
provides a comprehensive understanding of deep multi-modal learning for various
BL generations and recognitions for the first time. By analyzing advancements,
challenges, and future directions, it serves as a valuable resource for
researchers and practitioners in advancing this field. n addition, we maintain
a continuously updated paper list for deep multi-modal learning for BL
recognition and generation: https://github.com/wentaoL86/awesome-body-language.
- Abstract(参考訳): ボディランゲージ(Body language, BL)とは、身体の動き、ジェスチャー、表情、姿勢によって表現される非言語コミュニケーションのこと。
話し言葉や書かれた言葉を使わずに、情報、感情、態度、意図を伝えるコミュニケーションの一形態である。
対人対話において重要な役割を担い、言語コミュニケーションを補完し、あるいは覆すことができる。
深層マルチモーダル学習技術は、これらblの多様な側面の理解と分析に有望である。
この調査はBL生成と認識への応用を強調している。
手話(sl)、キュード音声(cs)、共同音声(cos)、トーキングヘッド(th)など、いくつかの共通blが検討されており、分析を行い、これら4つのblの接続を初めて確立した。
それらの生成と認識は、しばしばマルチモーダルアプローチを含む。
bl研究のためのベンチマークデータセットは、これらのデータセット上のsomaメソッドの評価とともに、収集され、整理される。
この調査は、限定ラベル付きデータ、マルチモーダルラーニング、未知の話者や言語にモデルを一般化するためのドメイン適応の必要性といった課題を強調している。
今後の研究の方向性として,自己指導型学習手法の探求,他のモダリティからの文脈情報の統合,大規模事前学習型マルチモーダルモデルの利用などがあげられる。
本研究は,様々なbl世代と認識を対象とした深層マルチモーダル学習の包括的理解を初めて提供する。
進歩、挑戦、今後の方向性を分析することで、この分野を進める研究者や実践者にとって貴重な資源となる。
さらに我々は、BL認識と生成のための深層マルチモーダル学習のための紙リストを継続的に更新している。
関連論文リスト
- LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Multilingual Multimodality: A Taxonomical Survey of Datasets,
Techniques, Challenges and Opportunities [10.721189858694396]
マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。
我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。
モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
論文 参考訳(メタデータ) (2022-10-30T21:46:01Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Multimodal Conversational AI: A Survey of Datasets and Approaches [0.76146285961466]
マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。
本稿では,多モーダル会話研究の目的を動機づけ,定義し,数学的に定式化する。
論文 参考訳(メタデータ) (2022-05-13T21:51:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Visual Methods for Sign Language Recognition: A Modality-Based Review [1.332560004325655]
連続したマルチモーダルストリームからの手話による視覚認識は、依然として最も困難な分野の1つである。
人間の行動認識の最近の進歩は、大量のデータからのGPUベースの学習の上昇を活用している。
そして、聴覚障害者や聴覚障害者のためのインタラクティブなサービスを作る傾向にある。
論文 参考訳(メタデータ) (2020-09-22T07:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。