論文の概要: Large language models in textual analysis for gesture selection
- arxiv url: http://arxiv.org/abs/2310.13705v1
- Date: Wed, 4 Oct 2023 14:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-29 16:15:05.860940
- Title: Large language models in textual analysis for gesture selection
- Title(参考訳): ジェスチャー選択のためのテキスト解析における大規模言語モデル
- Authors: Laura B. Hensel, Nutchanon Yongsatianchot, Parisa Torshizi, Elena
Minucci, Stacy Marsella
- Abstract要約: 大規模言語モデル(LLM)を用いて,これらの強力なデータモデルがジェスチャ解析や生成に適応可能であることを示す。
具体的には、最小限のプロンプトに基づいてデザイナの意図を実現できるコンテキスト固有のジェスチャーを提案するツールとしてChatGPTを使用しました。
- 参考スコア(独自算出の注目度): 2.5169522472327404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gestures perform a variety of communicative functions that powerfully
influence human face-to-face interaction. How this communicative function is
achieved varies greatly between individuals and depends on the role of the
speaker and the context of the interaction. Approaches to automatic gesture
generation vary not only in the degree to which they rely on data-driven
techniques but also the degree to which they can produce context and speaker
specific gestures. However, these approaches face two major challenges: The
first is obtaining sufficient training data that is appropriate for the context
and the goal of the application. The second is related to designer control to
realize their specific intent for the application. Here, we approach these
challenges by using large language models (LLMs) to show that these powerful
models of large amounts of data can be adapted for gesture analysis and
generation. Specifically, we used ChatGPT as a tool for suggesting
context-specific gestures that can realize designer intent based on minimal
prompts. We also find that ChatGPT can suggests novel yet appropriate gestures
not present in the minimal training data. The use of LLMs is a promising avenue
for gesture generation that reduce the need for laborious annotations and has
the potential to flexibly and quickly adapt to different designer intents.
- Abstract(参考訳): ジェスチャーは、人間の対面相互作用に強力な影響を与える様々なコミュニケーション機能を実行する。
このコミュニケーション機能がどのように達成されるかは個人によって大きく異なり、話者の役割と相互作用の文脈に依存する。
自動ジェスチャー生成へのアプローチは、データ駆動技術に依存する程度だけでなく、文脈や話者固有のジェスチャーを生成できる程度によっても異なる。
ひとつは、アプリケーションのコンテキストとゴールに適した十分なトレーニングデータを得ることです。
2つ目は、アプリケーションに対する特定の意図を実現するためのデザイナコントロールに関するものだ。
そこで本稿では,大規模言語モデル(LLM)を用いて,これらの強力なデータモデルがジェスチャー解析や生成に適応可能であることを示す。
具体的には、最小限のプロンプトに基づいてデザイナの意図を実現できるコンテキスト固有のジェスチャーを提案するツールとしてChatGPTを使用しました。
また、ChatGPTは最小限のトレーニングデータには存在しないが適切なジェスチャーを提案できる。
LLMの使用は、退屈なアノテーションの必要性を減らし、異なるデザイナーの意図に柔軟かつ迅速に適応する可能性を持つジェスチャー生成のための有望な道である。
関連論文リスト
- We're Calling an Intervention: Exploring the Fundamental Hurdles in Adapting Language Models to Nonstandard Text [8.956635443376527]
非標準テキストへの言語モデル適応の根底にある課題を理解するための一連の実験を提示する。
我々は、言語モデルの既存バイアスとの相互作用と、いくつかの種類の言語的変動を近似する介入を設計する。
学習データのサイズや性質の異なる言語モデル適応時の介入を適用することで、知識伝達がいつ成功するかについて重要な洞察を得ることができる。
論文 参考訳(メタデータ) (2024-04-10T18:56:53Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons [16.52004713662265]
本稿では,異なる骨格を持つ複数のジェスチャーデータセットに基づいて学習した,拡散モデルに基づく音声駆動ジェスチャー合成手法を提案する。
次に、局所的注意と自己注意を用いた拡散モデルアーキテクチャに基づいて、音声とジェスチャーの相関関係を抽出する。
実験により、UnifiedGestureは、CCA、FGD、人間類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-13T16:07:25Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。