論文の概要: A Survey on Deep Multi-modal Learning for Body Language Recognition and
Generation
- arxiv url: http://arxiv.org/abs/2308.08849v1
- Date: Thu, 17 Aug 2023 08:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 17:24:51.428988
- Title: A Survey on Deep Multi-modal Learning for Body Language Recognition and
Generation
- Title(参考訳): 身体言語認識・生成のための深層マルチモーダル学習に関する研究
- Authors: Li Liu, Lufei Gao, Wentao Lei, Fengji Ma, Xiaotian Lin, Jinting Wang
- Abstract要約: ボディランゲージ(Body language, BL)とは、身体の動き、ジェスチャー、表情、姿勢によって表現される非言語コミュニケーションのこと。
深層マルチモーダル学習技術は,これらのBLの多様な側面を理解し解析する上で有望であることを示す。
いくつかの共通BLは、手話(SL)、キュードスピーチ(CS)、コスペーチ(CoS)、トーキングヘッド(TH)とみなされる。
- 参考スコア(独自算出の注目度): 5.8522989442606566
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Body language (BL) refers to the non-verbal communication expressed through
physical movements, gestures, facial expressions, and postures. It is a form of
communication that conveys information, emotions, attitudes, and intentions
without the use of spoken or written words. It plays a crucial role in
interpersonal interactions and can complement or even override verbal
communication. Deep multi-modal learning techniques have shown promise in
understanding and analyzing these diverse aspects of BL. The survey emphasizes
their applications to BL generation and recognition. Several common BLs are
considered i.e., Sign Language (SL), Cued Speech (CS), Co-speech (CoS), and
Talking Head (TH), and we have conducted an analysis and established the
connections among these four BL for the first time. Their generation and
recognition often involve multi-modal approaches. Benchmark datasets for BL
research are well collected and organized, along with the evaluation of SOTA
methods on these datasets. The survey highlights challenges such as limited
labeled data, multi-modal learning, and the need for domain adaptation to
generalize models to unseen speakers or languages. Future research directions
are presented, including exploring self-supervised learning techniques,
integrating contextual information from other modalities, and exploiting
large-scale pre-trained multi-modal models. In summary, this survey paper
provides a comprehensive understanding of deep multi-modal learning for various
BL generations and recognitions for the first time. By analyzing advancements,
challenges, and future directions, it serves as a valuable resource for
researchers and practitioners in advancing this field. n addition, we maintain
a continuously updated paper list for deep multi-modal learning for BL
recognition and generation: https://github.com/wentaoL86/awesome-body-language.
- Abstract(参考訳): ボディランゲージ(Body language, BL)とは、身体の動き、ジェスチャー、表情、姿勢によって表現される非言語コミュニケーションのこと。
話し言葉や書かれた言葉を使わずに、情報、感情、態度、意図を伝えるコミュニケーションの一形態である。
対人対話において重要な役割を担い、言語コミュニケーションを補完し、あるいは覆すことができる。
深層マルチモーダル学習技術は、これらblの多様な側面の理解と分析に有望である。
この調査はBL生成と認識への応用を強調している。
手話(sl)、キュード音声(cs)、共同音声(cos)、トーキングヘッド(th)など、いくつかの共通blが検討されており、分析を行い、これら4つのblの接続を初めて確立した。
それらの生成と認識は、しばしばマルチモーダルアプローチを含む。
bl研究のためのベンチマークデータセットは、これらのデータセット上のsomaメソッドの評価とともに、収集され、整理される。
この調査は、限定ラベル付きデータ、マルチモーダルラーニング、未知の話者や言語にモデルを一般化するためのドメイン適応の必要性といった課題を強調している。
今後の研究の方向性として,自己指導型学習手法の探求,他のモダリティからの文脈情報の統合,大規模事前学習型マルチモーダルモデルの利用などがあげられる。
本研究は,様々なbl世代と認識を対象とした深層マルチモーダル学習の包括的理解を初めて提供する。
進歩、挑戦、今後の方向性を分析することで、この分野を進める研究者や実践者にとって貴重な資源となる。
さらに我々は、BL認識と生成のための深層マルチモーダル学習のための紙リストを継続的に更新している。
関連論文リスト
- Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
本調査は、低リソース言語誤報検出に関する現在の研究の概要を概観する。
これらの領域で使用されている既存のデータセット、方法論、ツールをレビューし、データリソース、モデル開発、文化的・言語的文脈、現実世界の応用、研究の取り組みに関する重要な課題を特定します。
本研究は,多様な言語・文化的文脈における誤情報に対処できる,堅牢で包括的なシステムの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models [38.64792118903994]
SILLMのジェンダーバイアスを4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T15:35:43Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Multilingual Multimodality: A Taxonomical Survey of Datasets,
Techniques, Challenges and Opportunities [10.721189858694396]
マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。
我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。
モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
論文 参考訳(メタデータ) (2022-10-30T21:46:01Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。