Fugu-MT 論文翻訳(概要): On the Linguistic and Computational Requirements for Creating Face-to-Face Multimodal Human-Machine Interaction

論文の概要: On the Linguistic and Computational Requirements for Creating Face-to-Face Multimodal Human-Machine Interaction

arxiv url: http://arxiv.org/abs/2211.13804v1
Date: Thu, 24 Nov 2022 21:17:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 17:31:43.853572
Title: On the Linguistic and Computational Requirements for Creating Face-to-Face Multimodal Human-Machine Interaction
Title（参考訳）: 対面型マルチモーダルヒューマンマシンインタラクション作成のための言語的・計算的要求について
Authors: Jo\~ao Ranhel and Cacilda Vilela de Lima
Abstract要約: ビデオ記録では、34人の人間とアバターのインタラクションを録画し、ビデオの抜粋で完全な言語的マイクロアナリシスを行い、マルチモーダル行動やイベントの発生を全て記録した。このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。本稿では,会話分析(CA)や認知科学,心の理論(ToM)などの知識を,人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, conversations between humans and avatars are linguistically, organizationally, and structurally analyzed, focusing on what is necessary for creating face-to-face multimodal interfaces for machines. We videorecorded thirty-four human-avatar interactions, performed complete linguistic microanalysis on video excerpts, and marked all the occurrences of multimodal actions and events. Statistical inferences were applied to data, allowing us to comprehend not only how often multimodal actions occur but also how multimodal events are distributed between the speaker (emitter) and the listener (recipient). We also observed the distribution of multimodal occurrences for each modality. The data show evidence that double-loop feedback is established during a face-to-face conversation. This led us to propose that knowledge from Conversation Analysis (CA), cognitive science, and Theory of Mind (ToM), among others, should be incorporated into the ones used for describing human-machine multimodal interactions. Face-to-face interfaces require an additional control layer to the multimodal fusion layer. This layer has to organize the flow of conversation, integrate the social context into the interaction, as well as make plans concerning 'what' and 'how' to progress on the interaction. This higher level is best understood if we incorporate insights from CA and ToM into the interface system.
Abstract（参考訳）: 本研究では,人間とアバターの会話を言語的に,組織的に,構造的に分析し,マシンの対面マルチモーダルインターフェース構築に必要なものに着目した。ヒトとアバタールの相互作用をビデオで記録し,全言語的マイクロアナリシスを行い,マルチモーダルな行動や事象を全て記録した。統計的推論がデータに適用され、マルチモーダルアクションの発生頻度だけでなく、話者(emitter)とリスナ(recipient)の間でのマルチモーダルイベントの分散状況も理解できるようになった。また,各モダリティに対するマルチモーダル発生の分布も観測した。このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。そこで我々は、会話分析(CA)、認知科学、心の理論(ToM)などの知識を、人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案した。対面インターフェースはマルチモーダル融合層に追加の制御層を必要とする。このレイヤでは,会話の流れを整理し,対話に社会的コンテキストを統合するとともに,対話を進めるための「何」と「どのように」に関する計画を立てる必要がある。 CAとToMの洞察をインターフェースシステムに組み込むと、この高いレベルがよく理解されます。

関連論文リスト

Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions [13.341099059080936]
本研究の目的は、人間とのより没入的な相互作用が可能な「目と耳」をチャットボットに装備することである。本稿では,マルチモーダルな会話データセットであるマルチモーダルなマルチセッション・マルチパーティ・会話について紹介する。我々のモデルはM3C$で訓練され、複数の話者との長期会話をシームレスに行う能力を示している。
論文参考訳（メタデータ） (2025-05-31T06:50:51Z)
InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback [20.27708059361695]
人間の学習の重要な側面は環境との継続的な相互作用である。人間レベルのインテリジェンスに近づくためには、モデルがマルチターン、マルチモーダルなインタラクションをサポートする必要がある。マルチターンマルチモーダルインタラクションのための第1の選好データセットであるInterMTによる最初の探索を行う。
論文参考訳（メタデータ） (2025-05-29T19:00:42Z)
OV-HHIR: Open Vocabulary Human Interaction Recognition Using Cross-modal Integration of Large Language Models [4.831029473163422]
オープンな語彙と人間-人間の相互作用認識フレームワークを提案する。我々は、オープンワールド設定において、目視と目視の両方の人間のインタラクションについて、オープンエンドのテキスト記述を生成する。本手法は,ビデオ理解のための従来の固定語彙分類システムや既存のクロスモーダル言語モデルよりも優れている。
論文参考訳（メタデータ） (2024-12-31T13:22:00Z)
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文参考訳（メタデータ） (2024-06-12T04:48:36Z)
AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。 AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文参考訳（メタデータ） (2024-01-26T19:17:05Z)
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。 CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2023-11-08T07:46:25Z)
Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文参考訳（メタデータ） (2023-08-08T18:11:27Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
InterMulti:Multi-view Multimodal Interactions with Text-dominated Hierarchical High-order Fusion for Emotion Analysis [10.048903012988882]
異なる視点から複雑なマルチモーダルインタラクションを捉えるためのマルチモーダル感情分析フレームワークであるInterMultiを提案する。提案フレームワークは,異なるモードの信号を3種類のマルチモーダル相互作用表現に分解する。 THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。
論文参考訳（メタデータ） (2022-12-20T07:02:32Z)
Face-to-Face Contrastive Learning for Social Intelligence Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文参考訳（メタデータ） (2022-07-29T20:39:44Z)
Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文参考訳（メタデータ） (2022-07-20T13:37:57Z)
Multimodal Conversational AI: A Survey of Datasets and Approaches [0.76146285961466]
マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。本稿では,多モーダル会話研究の目的を動機づけ,定義し,数学的に定式化する。
論文参考訳（メタデータ） (2022-05-13T21:51:42Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in Conversations [5.5997926295092295]
会話におけるマルチモーダル感情認識 (ERC) は共感機械の開発にかなりの可能性を持っている。最近のグラフベース融合法は, グラフ内の非モーダル・クロスモーダル相互作用を探索することによって, 多モーダル情報を集約する。マルチモーダル・ダイナミック・フュージョン・ネットワーク(MM-DFN)を提案する。
論文参考訳（メタデータ） (2022-03-04T15:42:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。