論文の概要: Multimodal Conversational AI: A Survey of Datasets and Approaches
- arxiv url: http://arxiv.org/abs/2205.06907v1
- Date: Fri, 13 May 2022 21:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 08:12:20.061729
- Title: Multimodal Conversational AI: A Survey of Datasets and Approaches
- Title(参考訳): マルチモーダル会話型ai:データセットとアプローチに関する調査
- Authors: Anirudh Sundar and Larry Heck
- Abstract要約: マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。
本稿では,多モーダル会話研究の目的を動機づけ,定義し,数学的に定式化する。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As humans, we experience the world with all our senses or modalities (sound,
sight, touch, smell, and taste). We use these modalities, particularly sight
and touch, to convey and interpret specific meanings. Multimodal expressions
are central to conversations; a rich set of modalities amplify and often
compensate for each other. A multimodal conversational AI system answers
questions, fulfills tasks, and emulates human conversations by understanding
and expressing itself via multiple modalities. This paper motivates, defines,
and mathematically formulates the multimodal conversational research objective.
We provide a taxonomy of research required to solve the objective: multimodal
representation, fusion, alignment, translation, and co-learning. We survey
state-of-the-art datasets and approaches for each research area and highlight
their limiting assumptions. Finally, we identify multimodal co-learning as a
promising direction for multimodal conversational AI research.
- Abstract(参考訳): 人間として、私たちはすべての感覚やモダリティ(音、視覚、タッチ、匂い、味)で世界を体験します。
私たちはこれらのモダリティ、特に視覚と触覚を使って、特定の意味を伝え、解釈します。
マルチモーダル表現は会話の中心であり、豊富なモダリティのセットは互いに増幅し、しばしば補償する。
マルチモーダルな会話AIシステムは、質問に答え、タスクを実行し、複数のモーダルを通して自分自身を理解し、表現することで人間の会話をエミュレートする。
本稿では,マルチモーダル対話研究の目的を動機づけ,定義し,数学的に定式化する。
我々は,マルチモーダル表現,融合,アライメント,翻訳,共学習という目的を達成するために必要な研究の分類法を提供する。
我々は,各研究領域の最先端データセットとアプローチを調査し,その限界仮定を強調した。
最後に,マルチモーダル協調学習をマルチモーダル対話型ai研究の有望な方向性と捉えた。
関連論文リスト
- Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - Modality Influence in Multimodal Machine Learning [0.0]
本研究では,マルチモーダル感情分析,マルチモーダル感情認識,マルチモーダルヘイト音声認識,マルチモーダル病検出について検討した。
本研究の目的は、各タスクの最も影響力のあるモダリティやモダリティの集合を特定し、多様なマルチモーダル分類タスクの結論を引き出すことである。
論文 参考訳(メタデータ) (2023-06-10T16:28:52Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - On the Linguistic and Computational Requirements for Creating
Face-to-Face Multimodal Human-Machine Interaction [0.0]
ビデオ記録では、34人の人間とアバターのインタラクションを録画し、ビデオの抜粋で完全な言語的マイクロアナリシスを行い、マルチモーダル行動やイベントの発生を全て記録した。
このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。
本稿では,会話分析(CA)や認知科学,心の理論(ToM)などの知識を,人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案する。
論文 参考訳(メタデータ) (2022-11-24T21:17:36Z) - Multilingual Multimodality: A Taxonomical Survey of Datasets,
Techniques, Challenges and Opportunities [10.721189858694396]
マルチ言語とマルチモーダル(MultiX)ストリームの統合について検討する。
我々は、並列アノテーションで研究された言語、金または銀のデータを調べ、これらのモダリティと言語がモデリングにおいてどのように相互作用するかを理解する。
モデリングアプローチの長所と短所とともに、どのシナリオを確実に使用できるのかをよりよく理解するために、モデリングアプローチについて説明します。
論文 参考訳(メタデータ) (2022-10-30T21:46:01Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z) - Detecting depression in dyadic conversations with multimodal narratives
and visualizations [1.4824891788575418]
本稿では,人間による会話の分析を支援するシステムを開発する。
本研究では,マルチモーダル情報を広範囲に取り込み,個人の抑うつ状態を予測するための予測スコアを自動生成するシステムについて述べる。
論文 参考訳(メタデータ) (2020-01-13T10:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。