Fugu-MT 論文翻訳(概要): Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues

論文の概要: Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues

arxiv url: http://arxiv.org/abs/2503.03474v1
Date: Wed, 05 Mar 2025 13:10:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:41.053499
Title: Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues
Title（参考訳）: Gestural Cues を用いた言語モデルにおける音声対話モデリングの強化
Authors: Varsha Suresh, M. Hamza Mughal, Christian Theobalt, Vera Demberg,
Abstract要約: 本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
参考スコア（独自算出の注目度）: 56.36041287155606
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Research in linguistics shows that non-verbal cues, such as gestures, play a crucial role in spoken discourse. For example, speakers perform hand gestures to indicate topic shifts, helping listeners identify transitions in discourse. In this work, we investigate whether the joint modeling of gestures using human motion sequences and language can improve spoken discourse modeling in language models. To integrate gestures into language models, we first encode 3D human motion sequences into discrete gesture tokens using a VQ-VAE. These gesture token embeddings are then aligned with text embeddings through feature alignment, mapping them into the text embedding space. To evaluate the gesture-aligned language model on spoken discourse, we construct text infilling tasks targeting three key discourse cues grounded in linguistic research: discourse connectives, stance markers, and quantifiers. Results show that incorporating gestures enhances marker prediction accuracy across the three tasks, highlighting the complementary information that gestures can offer in modeling spoken discourse. We view this work as an initial step toward leveraging non-verbal cues to advance spoken language modeling in language models.
Abstract（参考訳）: 言語学の研究は、ジェスチャーのような非言語的手がかりが、話し言葉において重要な役割を担っていることを示している。例えば、話者はトピックシフトを示す手振りを実行し、リスナーが談話の遷移を特定するのを助ける。本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングが,言語モデルにおける音声談話モデルの改善に有効かどうかを検討する。ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。これらのジェスチャートークンの埋め込みは、機能アライメントを通じてテキスト埋め込みとアライメントされ、テキスト埋め込みスペースにマッピングされる。音声談話におけるジェスチャー整合型言語モデルを評価するために,言語研究の基盤となる3つの主要な談話課題である談話接続,スタントマーカー,量化器を対象とするテキスト埋込タスクを構築した。その結果,ジェスチャーを取り入れることで,3つのタスクのマーカー予測精度が向上し,音声談話のモデル化においてジェスチャーが提供できる相補的情報が強調されることがわかった。本研究は,言語モデルにおける音声言語モデリングの進歩に,非言語的手がかりを活用するための最初のステップであると考えている。

関連論文リスト

Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。本稿では,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-28T17:55:52Z)
Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文参考訳（メタデータ） (2025-03-19T18:40:45Z)
Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach [14.5696754689252]
音声言語モデリングの最近の進歩は、音声から直接言語を学ぶことが可能であることを示している。音素分類に基づく微調整音声表現モデルにより、より文脈不変な表現が得られることを示す。
論文参考訳（メタデータ） (2024-09-16T10:29:15Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文参考訳（メタデータ） (2024-06-27T03:52:35Z)
Wave to Syntax: Probing spoken language models for syntax [16.643072915927313]
音声言語の自己教師型および視覚的基盤モデルにおける構文の符号化に着目する。我々は、構文がネットワークの中間層で最も顕著に捉えられ、より多くのパラメータを持つモデルでより明確に表現されていることを示す。
論文参考訳（メタデータ） (2023-05-30T11:43:18Z)
ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文参考訳（メタデータ） (2022-11-19T03:50:33Z)
Passing a Non-verbal Turing Test: Evaluating Gesture Animations Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文参考訳（メタデータ） (2021-07-01T19:38:43Z)
Gesticulator: A framework for semantically-aware speech-driven gesture generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文参考訳（メタデータ） (2020-01-25T14:42:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。