論文の概要: On the Linguistic and Computational Requirements for Creating
Face-to-Face Multimodal Human-Machine Interaction
- arxiv url: http://arxiv.org/abs/2211.13804v1
- Date: Thu, 24 Nov 2022 21:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 17:31:43.853572
- Title: On the Linguistic and Computational Requirements for Creating
Face-to-Face Multimodal Human-Machine Interaction
- Title(参考訳): 対面型マルチモーダルヒューマンマシンインタラクション作成のための言語的・計算的要求について
- Authors: Jo\~ao Ranhel and Cacilda Vilela de Lima
- Abstract要約: ビデオ記録では、34人の人間とアバターのインタラクションを録画し、ビデオの抜粋で完全な言語的マイクロアナリシスを行い、マルチモーダル行動やイベントの発生を全て記録した。
このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。
本稿では,会話分析(CA)や認知科学,心の理論(ToM)などの知識を,人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, conversations between humans and avatars are linguistically,
organizationally, and structurally analyzed, focusing on what is necessary for
creating face-to-face multimodal interfaces for machines. We videorecorded
thirty-four human-avatar interactions, performed complete linguistic
microanalysis on video excerpts, and marked all the occurrences of multimodal
actions and events. Statistical inferences were applied to data, allowing us to
comprehend not only how often multimodal actions occur but also how multimodal
events are distributed between the speaker (emitter) and the listener
(recipient). We also observed the distribution of multimodal occurrences for
each modality. The data show evidence that double-loop feedback is established
during a face-to-face conversation. This led us to propose that knowledge from
Conversation Analysis (CA), cognitive science, and Theory of Mind (ToM), among
others, should be incorporated into the ones used for describing human-machine
multimodal interactions. Face-to-face interfaces require an additional control
layer to the multimodal fusion layer. This layer has to organize the flow of
conversation, integrate the social context into the interaction, as well as
make plans concerning 'what' and 'how' to progress on the interaction. This
higher level is best understood if we incorporate insights from CA and ToM into
the interface system.
- Abstract(参考訳): 本研究では,人間とアバターの会話を言語的に,組織的に,構造的に分析し,マシンの対面マルチモーダルインターフェース構築に必要なものに着目した。
ヒトとアバタールの相互作用をビデオで記録し,全言語的マイクロアナリシスを行い,マルチモーダルな行動や事象を全て記録した。
統計的推論がデータに適用され、マルチモーダルアクションの発生頻度だけでなく、話者(emitter)とリスナ(recipient)の間でのマルチモーダルイベントの分散状況も理解できるようになった。
また,各モダリティに対するマルチモーダル発生の分布も観測した。
このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。
そこで我々は、会話分析(CA)、認知科学、心の理論(ToM)などの知識を、人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案した。
対面インターフェースはマルチモーダル融合層に追加の制御層を必要とする。
このレイヤでは,会話の流れを整理し,対話に社会的コンテキストを統合するとともに,対話を進めるための「何」と「どのように」に関する計画を立てる必要がある。
CAとToMの洞察をインターフェースシステムに組み込むと、この高いレベルがよく理解されます。
関連論文リスト
- AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - MMOE: Mixture of Multimodal Interaction Experts [115.20477067767399]
MMOEはマルチモーダルインタラクションの専門家の混在を指す。
本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。
実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex
Interactions [52.67456181120208]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - InterMulti:Multi-view Multimodal Interactions with Text-dominated
Hierarchical High-order Fusion for Emotion Analysis [10.048903012988882]
異なる視点から複雑なマルチモーダルインタラクションを捉えるためのマルチモーダル感情分析フレームワークであるInterMultiを提案する。
提案フレームワークは,異なるモードの信号を3種類のマルチモーダル相互作用表現に分解する。
THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。
論文 参考訳(メタデータ) (2022-12-20T07:02:32Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Multimodal Conversational AI: A Survey of Datasets and Approaches [0.76146285961466]
マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。
本稿では,多モーダル会話研究の目的を動機づけ,定義し,数学的に定式化する。
論文 参考訳(メタデータ) (2022-05-13T21:51:42Z) - MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in
Conversations [5.5997926295092295]
会話におけるマルチモーダル感情認識 (ERC) は共感機械の開発にかなりの可能性を持っている。
最近のグラフベース融合法は, グラフ内の非モーダル・クロスモーダル相互作用を探索することによって, 多モーダル情報を集約する。
マルチモーダル・ダイナミック・フュージョン・ネットワーク(MM-DFN)を提案する。
論文 参考訳(メタデータ) (2022-03-04T15:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。