論文の概要: I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue
- arxiv url: http://arxiv.org/abs/2503.00071v1
- Date: Thu, 27 Feb 2025 17:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:37.091201
- Title: I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue
- Title(参考訳): マルチモーダル対話における参照レゾリューションのための共音声ジェスチャ
- Authors: Esam Ghaleb, Bulat Khaertdinov, Aslı Özyürek, Raquel Fernández,
- Abstract要約: 本稿では,表現ジェスチャを中心としたマルチモーダル参照解決タスクを提案する。
頑健なジェスチャー埋め込みを学習する上での課題を同時に解決する。
本研究は,人間と機械の相互作用のより自然主義的なモデルに向けての一歩となる,参照分解におけるジェスチャーと音声の相補的役割を強調した。
- 参考スコア(独自算出の注目度): 5.0332064683666005
- License:
- Abstract: In face-to-face interaction, we use multiple modalities, including speech and gestures, to communicate information and resolve references to objects. However, how representational co-speech gestures refer to objects remains understudied from a computational perspective. In this work, we address this gap by introducing a multimodal reference resolution task centred on representational gestures, while simultaneously tackling the challenge of learning robust gesture embeddings. We propose a self-supervised pre-training approach to gesture representation learning that grounds body movements in spoken language. Our experiments show that the learned embeddings align with expert annotations and have significant predictive power. Moreover, reference resolution accuracy further improves when (1) using multimodal gesture representations, even when speech is unavailable at inference time, and (2) leveraging dialogue history. Overall, our findings highlight the complementary roles of gesture and speech in reference resolution, offering a step towards more naturalistic models of human-machine interaction.
- Abstract(参考訳): 対面インタラクションでは、音声やジェスチャーを含む複数のモーダルを使って情報を伝達し、オブジェクトへの参照を解消する。
しかし、表現的共同音声のジェスチャーがどのようにオブジェクトを参照しているかは、まだ計算の観点から検討されていない。
本研究では,表現ジェスチャを中心としたマルチモーダル参照解決タスクを導入するとともに,頑健なジェスチャー埋め込み学習の課題に取り組むことで,このギャップに対処する。
音声言語における身体の動きを基礎としたジェスチャー表現学習のための自己指導型事前学習手法を提案する。
実験の結果,学習した埋め込みは専門家のアノテーションと一致し,予測力が高いことがわかった。
さらに,(1)マルチモーダルなジェスチャー表現を用いた場合,(2)推論時に音声が利用できない場合,(2)対話履歴を活用する場合においても,参照解像度の精度が向上する。
本研究は,人間と機械の相互作用のより自然主義的なモデルへの一歩として,参照分解におけるジェスチャーと音声の相補的役割を強調した。
関連論文リスト
- VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [105.88658935310605]
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。
提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。
画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
論文 参考訳(メタデータ) (2025-01-03T18:59:52Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Learning Co-Speech Gesture Representations in Dialogue through Contrastive Learning: An Intrinsic Evaluation [4.216085185442862]
対面対話では, 文脈的要因によって, 話し言葉の形式的意味の関係が変化する。
ジェスチャーの多様性と音声との関係を考慮した意味あるジェスチャー表現の学習法
本稿では,自己指導型コントラスト学習技術を用いて,骨格情報と音声情報からジェスチャー表現を学習する。
論文 参考訳(メタデータ) (2024-08-31T08:53:18Z) - Leveraging Speech for Gesture Detection in Multimodal Communication [3.798147784987455]
ジェスチャーは人間のインタラクションに固有のものであり、対面コミュニケーションにおいてしばしば音声を補完し、マルチモーダル通信システムを形成する。
自動ジェスチャー検出の研究は、主に視覚的および運動学的情報に焦点を当て、低可変性で孤立した、あるいは無音なジェスチャーの限られたセットを検知し、音声や視覚信号の統合を無視して、音声と共起するジェスチャーを検出する。
本研究は,共同音声ジェスチャー検出に焦点をあて,音声と共同音声ジェスチャーの同期を強調することで,このギャップに対処する。
論文 参考訳(メタデータ) (2024-04-23T11:54:05Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。