論文の概要: Pragmatic Frames Evoked by Gestures: A FrameNet Brasil Approach to Multimodality in Turn Organization
- arxiv url: http://arxiv.org/abs/2509.09804v1
- Date: Thu, 11 Sep 2025 19:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.902973
- Title: Pragmatic Frames Evoked by Gestures: A FrameNet Brasil Approach to Multimodality in Turn Organization
- Title(参考訳): ジェスチャーによって誘発される実用的フレーム:ターンオーガナイゼーションにおけるマルチモダリティに対するFrameNet Brasilアプローチ
- Authors: Helen de Andrade Abreu, Tiago Timponi Torrent, Ely Edison da Silva Matos,
- Abstract要約: Frame2データセットには、ブラジルのテレビシリーズ『Pedro Pelo Mundo』の10エピソードがビデオとテキストの両方で誘発されるセマンティックフレームに注釈付けされている。
その結果, 対面会話に関わるコミュニケーション者は, 会話の交替, 受け取り, 維持のためのツールとして, ジェスチャーを活用できることが確認された。
これらのジェスチャーの使用は、心的空間、ブレンディング、概念的メタファーを含む実用的フレームの概念化から生じると考えられる。
- 参考スコア(独自算出の注目度): 0.43348187554755113
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a framework for modeling multimodal conversational turn organization via the proposition of correlations between language and interactive gestures, based on analysis as to how pragmatic frames are conceptualized and evoked by communicators. As a means to provide evidence for the analysis, we developed an annotation methodology to enrich a multimodal dataset (annotated for semantic frames) with pragmatic frames modeling conversational turn organization. Although conversational turn organization has been studied by researchers from diverse fields, the specific strategies, especially gestures used by communicators, had not yet been encoded in a dataset that can be used for machine learning. To fill this gap, we enriched the Frame2 dataset with annotations of gestures used for turn organization. The Frame2 dataset features 10 episodes from the Brazilian TV series Pedro Pelo Mundo annotated for semantic frames evoked in both video and text. This dataset allowed us to closely observe how communicators use interactive gestures outside a laboratory, in settings, to our knowledge, not previously recorded in related literature. Our results have confirmed that communicators involved in face-to-face conversation make use of gestures as a tool for passing, taking and keeping conversational turns, and also revealed variations of some gestures that had not been documented before. We propose that the use of these gestures arises from the conceptualization of pragmatic frames, involving mental spaces, blending and conceptual metaphors. In addition, our data demonstrate that the annotation of pragmatic frames contributes to a deeper understanding of human cognition and language.
- Abstract(参考訳): 本稿では,言語と対話的ジェスチャーの相関による多モーダル対話型ターン・オーガナイゼーションをモデル化するためのフレームワークを提案する。
この分析の証拠を提供する手段として,対話型ターン・オーガナイゼーションをモデル化した実用的フレームを用いたマルチモーダル・データセット(意味的フレームに注釈を付ける)を充実させるアノテーション手法を開発した。
会話のターン組織は様々な分野の研究者によって研究されてきたが、特定の戦略、特に通信者が使用するジェスチャーは、まだ機械学習に使用できるデータセットにエンコードされていない。
このギャップを埋めるために、ターンオーガナイゼーションに使用されるジェスチャのアノテーションでFrame2データセットを強化しました。
Frame2データセットには、ブラジルのテレビシリーズ『Pedro Pelo Mundo』の10エピソードがビデオとテキストの両方で誘発されるセマンティックフレームに注釈付けされている。
このデータセットにより、実験室の外での対話的なジェスチャーを、これまでの文献では記録されていなかった知識に対して、より深く観察することが可能になった。
その結果, 対面会話に関わるコミュニケーション者は, 会話を交わし, 受け取り, 維持するためのツールとしてジェスチャーを利用しており, また, これまで文書化されていなかったジェスチャーのバリエーションも明らかにした。
これらのジェスチャーの使用は、心的空間、ブレンディング、概念的メタファーを含む実用的フレームの概念化から生じると考えられる。
さらに,本研究では,現実的なフレームのアノテーションが,人間の認知と言語に対する深い理解に寄与することを示す。
関連論文リスト
- SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning [0.6249768559720122]
共同音声ジェスチャ生成における意味的接地のための新しい手法を提案する。
我々のアプローチは、ベクトル量子化された変分オートエンコーダによって、前もって動きを学習することから始まる。
提案手法は,2つのベンチマークにおいて,音声合成における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2025-07-25T15:10:15Z) - Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues [56.36041287155606]
本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。
ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。
その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
論文 参考訳(メタデータ) (2025-03-05T13:10:07Z) - I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue [5.0332064683666005]
本稿では,表現ジェスチャを中心としたマルチモーダル参照解決タスクを提案する。
頑健なジェスチャー埋め込みを学習する上での課題を同時に解決する。
本研究は,人間と機械の相互作用のより自然主義的なモデルに向けての一歩となる,参照分解におけるジェスチャーと音声の相補的役割を強調した。
論文 参考訳(メタデータ) (2025-02-27T17:28:12Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。