論文の概要: META4: Semantically-Aligned Generation of Metaphoric Gestures Using
Self-Supervised Text and Speech Representation
- arxiv url: http://arxiv.org/abs/2311.05481v2
- Date: Tue, 21 Nov 2023 10:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:15:56.942409
- Title: META4: Semantically-Aligned Generation of Metaphoric Gestures Using
Self-Supervised Text and Speech Representation
- Title(参考訳): META4:自己教師付きテキストと音声表現を用いたメタフォリックジェスチャーのセマンティックアライズド生成
- Authors: Mireille Fares, Catherine Pelachaud, Nicolas Obin
- Abstract要約: 本稿では,音声と画像の両方からメタファ的ジェスチャーを生成する深層学習手法META4を紹介する。
提案手法の主な目的は,入力テキストからイメージを抽出し,その基盤となる意味と比喩的意味を捉えること,および音声と計算された画像スキーマによって駆動される比喩的なジェスチャーを生成することである。
- 参考スコア(独自算出の注目度): 2.7317088388886384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Schemas are repetitive cognitive patterns that influence the way we
conceptualize and reason about various concepts present in speech. These
patterns are deeply embedded within our cognitive processes and are reflected
in our bodily expressions including gestures. Particularly, metaphoric gestures
possess essential characteristics and semantic meanings that align with Image
Schemas, to visually represent abstract concepts. The shape and form of
gestures can convey abstract concepts, such as extending the forearm and hand
or tracing a line with hand movements to visually represent the image schema of
PATH. Previous behavior generation models have primarily focused on utilizing
speech (acoustic features and text) to drive the generation model of virtual
agents. They have not considered key semantic information as those carried by
Image Schemas to effectively generate metaphoric gestures. To address this
limitation, we introduce META4, a deep learning approach that generates
metaphoric gestures from both speech and Image Schemas. Our approach has two
primary goals: computing Image Schemas from input text to capture the
underlying semantic and metaphorical meaning, and generating metaphoric
gestures driven by speech and the computed image schemas. Our approach is the
first method for generating speech driven metaphoric gestures while leveraging
the potential of Image Schemas. We demonstrate the effectiveness of our
approach and highlight the importance of both speech and image schemas in
modeling metaphoric gestures.
- Abstract(参考訳): 画像スキーマは、音声に存在する様々な概念の概念化と推論の仕方に影響を与える反復的な認知パターンである。
これらのパターンは認知プロセスに深く埋め込まれており、ジェスチャーを含む身体表現に反映されます。
特に、比喩的ジェスチャーは抽象概念を視覚的に表現するためにイメージスキーマと整合する本質的な特徴と意味を持っている。
ジェスチャーの形状と形状は、前腕と手を伸ばしたり、手の動きで線をトレースしてPATHの画像スキーマを視覚的に表現したりといった抽象概念を伝達することができる。
従来の行動生成モデルは、主に音声(音響特徴とテキスト)を利用して仮想エージェントの生成モデルを推進することに重点を置いている。
彼らは重要な意味情報を、比喩的ジェスチャーを効果的に生成するイメージスキーマが持つものと見なしていない。
この制限に対処するために,音声と画像スキーマの両方からメタファ的ジェスチャーを生成する深層学習手法META4を導入する。
私たちのアプローチは、入力テキストから画像スキーマを計算して、基礎となる意味的およびメタファ的意味を捉え、音声と計算された画像スキーマによって駆動されるメタファー的ジェスチャーを生成するという2つの主要な目標を持っています。
本手法は,画像スキーマの可能性を生かしながら音声駆動のメタファージェスチャを生成する最初の手法である。
提案手法の有効性を実証し,メタファ的ジェスチャーのモデル化における音声および画像スキーマの重要性を強調した。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create
Visual Metaphors [38.70166865926743]
言語メタファーから視覚的メタファーを生成するための新しい課題を提案する。
これは、暗黙的な意味と構成性をモデル化する能力を必要とするため、拡散ベースのテキスト-画像モデルにとって難しいタスクである。
我々は1,540の言語メタファーとそれに関連する視覚的エラボレートのための6,476の視覚的メタファーを含む高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-05-24T05:01:10Z) - MetaCLUE: Towards Comprehensive Visual Metaphors Research [43.604408485890275]
本稿では,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。
我々は、アノテーションに基づいて、視覚と言語における最先端モデルの包括的分析を行う。
この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。
論文 参考訳(メタデータ) (2022-12-19T22:41:46Z) - Cross-Modal Alignment Learning of Vision-Language Conceptual Systems [24.423011687551433]
幼児の単語学習メカニズムに触発された視覚言語概念体系を学習する手法を提案する。
提案モデルでは、視覚オブジェクトと単語の関連性をオンラインで学習し、徐々に相互関係グラフネットワークを構築している。
論文 参考訳(メタデータ) (2022-07-31T08:39:53Z) - Emergent Graphical Conventions in a Visual Communication Game [80.79297387339614]
人間は象徴的な言語とは別にグラフィカルなスケッチと通信する。
視覚コミュニケーションゲームをする2つのニューラルエージェントを介して、このような進化過程をモデル化し、シミュレートする第一歩を踏み出す。
我々は,コミュニケーションと抽象的なグラフィカルな慣行を成功させるために,エージェントを共同で進化させる新しい強化学習手法を考案した。
論文 参考訳(メタデータ) (2021-11-28T18:59:57Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z) - Metaphor Generation with Conceptual Mappings [58.61307123799594]
我々は、関連する動詞を置き換えることで、リテラル表現を与えられた比喩文を生成することを目指している。
本稿では,認知領域間の概念マッピングを符号化することで生成過程を制御することを提案する。
教師なしCM-Lexモデルは,近年のディープラーニングメタファ生成システムと競合することを示す。
論文 参考訳(メタデータ) (2021-06-02T15:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。