論文の概要: On the Linguistic and Computational Requirements for Creating
Face-to-Face Multimodal Human-Machine Interaction
- arxiv url: http://arxiv.org/abs/2211.13804v1
- Date: Thu, 24 Nov 2022 21:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:31:43.853572
- Title: On the Linguistic and Computational Requirements for Creating
Face-to-Face Multimodal Human-Machine Interaction
- Title(参考訳): 対面型マルチモーダルヒューマンマシンインタラクション作成のための言語的・計算的要求について
- Authors: Jo\~ao Ranhel and Cacilda Vilela de Lima
- Abstract要約: ビデオ記録では、34人の人間とアバターのインタラクションを録画し、ビデオの抜粋で完全な言語的マイクロアナリシスを行い、マルチモーダル行動やイベントの発生を全て記録した。
このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。
本稿では,会話分析(CA)や認知科学,心の理論(ToM)などの知識を,人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, conversations between humans and avatars are linguistically,
organizationally, and structurally analyzed, focusing on what is necessary for
creating face-to-face multimodal interfaces for machines. We videorecorded
thirty-four human-avatar interactions, performed complete linguistic
microanalysis on video excerpts, and marked all the occurrences of multimodal
actions and events. Statistical inferences were applied to data, allowing us to
comprehend not only how often multimodal actions occur but also how multimodal
events are distributed between the speaker (emitter) and the listener
(recipient). We also observed the distribution of multimodal occurrences for
each modality. The data show evidence that double-loop feedback is established
during a face-to-face conversation. This led us to propose that knowledge from
Conversation Analysis (CA), cognitive science, and Theory of Mind (ToM), among
others, should be incorporated into the ones used for describing human-machine
multimodal interactions. Face-to-face interfaces require an additional control
layer to the multimodal fusion layer. This layer has to organize the flow of
conversation, integrate the social context into the interaction, as well as
make plans concerning 'what' and 'how' to progress on the interaction. This
higher level is best understood if we incorporate insights from CA and ToM into
the interface system.
- Abstract(参考訳): 本研究では,人間とアバターの会話を言語的に,組織的に,構造的に分析し,マシンの対面マルチモーダルインターフェース構築に必要なものに着目した。
ヒトとアバタールの相互作用をビデオで記録し,全言語的マイクロアナリシスを行い,マルチモーダルな行動や事象を全て記録した。
統計的推論がデータに適用され、マルチモーダルアクションの発生頻度だけでなく、話者(emitter)とリスナ(recipient)の間でのマルチモーダルイベントの分散状況も理解できるようになった。
また,各モダリティに対するマルチモーダル発生の分布も観測した。
このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。
そこで我々は、会話分析(CA)、認知科学、心の理論(ToM)などの知識を、人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案した。
対面インターフェースはマルチモーダル融合層に追加の制御層を必要とする。
このレイヤでは,会話の流れを整理し,対話に社会的コンテキストを統合するとともに,対話を進めるための「何」と「どのように」に関する計画を立てる必要がある。
CAとToMの洞察をインターフェースシステムに組み込むと、この高いレベルがよく理解されます。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - InterMulti:Multi-view Multimodal Interactions with Text-dominated
Hierarchical High-order Fusion for Emotion Analysis [10.048903012988882]
異なる視点から複雑なマルチモーダルインタラクションを捉えるためのマルチモーダル感情分析フレームワークであるInterMultiを提案する。
提案フレームワークは,異なるモードの信号を3種類のマルチモーダル相互作用表現に分解する。
THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。
論文 参考訳(メタデータ) (2022-12-20T07:02:32Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Multimodal Conversational AI: A Survey of Datasets and Approaches [0.76146285961466]
マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。
本稿では,多モーダル会話研究の目的を動機づけ,定義し,数学的に定式化する。
論文 参考訳(メタデータ) (2022-05-13T21:51:42Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in
Conversations [5.5997926295092295]
会話におけるマルチモーダル感情認識 (ERC) は共感機械の開発にかなりの可能性を持っている。
最近のグラフベース融合法は, グラフ内の非モーダル・クロスモーダル相互作用を探索することによって, 多モーダル情報を集約する。
マルチモーダル・ダイナミック・フュージョン・ネットワーク(MM-DFN)を提案する。
論文 参考訳(メタデータ) (2022-03-04T15:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。