論文の概要: Enabling Harmonious Human-Machine Interaction with Visual-Context
Augmented Dialogue System: A Review
- arxiv url: http://arxiv.org/abs/2207.00782v1
- Date: Sat, 2 Jul 2022 09:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:38:57.781209
- Title: Enabling Harmonious Human-Machine Interaction with Visual-Context
Augmented Dialogue System: A Review
- Title(参考訳): 視覚コンテキスト拡張対話システムによる人間と機械の調和的インタラクションの実現 : レビュー
- Authors: Hao Wang, Bin Guo, Yating Zeng, Yasan Ding, Chen Qiu, Ying Zhang, Lina
Yao, Zhiwen Yu
- Abstract要約: Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。
VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
- 参考スコア(独自算出の注目度): 40.49926141538684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intelligent dialogue system, aiming at communicating with humans
harmoniously with natural language, is brilliant for promoting the advancement
of human-machine interaction in the era of artificial intelligence. With the
gradually complex human-computer interaction requirements (e.g., multimodal
inputs, time sensitivity), it is difficult for traditional text-based dialogue
system to meet the demands for more vivid and convenient interaction.
Consequently, Visual Context Augmented Dialogue System (VAD), which has the
potential to communicate with humans by perceiving and understanding multimodal
information (i.e., visual context in images or videos, textual dialogue
history), has become a predominant research paradigm. Benefiting from the
consistency and complementarity between visual and textual context, VAD
possesses the potential to generate engaging and context-aware responses. For
depicting the development of VAD, we first characterize the concepts and unique
features of VAD, and then present its generic system architecture to illustrate
the system workflow. Subsequently, several research challenges and
representative works are detailed investigated, followed by the summary of
authoritative benchmarks. We conclude this paper by putting forward some open
issues and promising research trends for VAD, e.g., the cognitive mechanisms of
human-machine dialogue under cross-modal dialogue context, and
knowledge-enhanced cross-modal semantic interaction.
- Abstract(参考訳): 自然言語と調和して人間とコミュニケーションすることを目的としたインテリジェント対話システムは、人工知能の時代における人間と機械の対話の進歩を促進するのに素晴らしい。
次第に複雑な人間とコンピュータの相互作用要求(マルチモーダル入力、時間感度など)により、従来のテキストベースの対話システムではより鮮明で便利な対話の要求を満たすことは困難である。
その結果、多様情報(画像やビデオの視覚的文脈、テキスト的対話履歴など)を知覚し理解することで人間とコミュニケーションする可能性を秘めた視覚コンテキスト拡張対話システム(vad)が、主要な研究パラダイムとなっている。
視覚とテキストのコンテキストの一貫性と相補性から、vadはエンゲージメントとコンテキスト認識応答を生成する可能性を秘めている。
vadの開発を描写するために、まずvadの概念とユニークな特徴を特徴付け、次にシステムワークフローを説明するための汎用システムアーキテクチャを提示します。
その後、いくつかの研究課題と代表的研究が詳細に研究され、続いて権威的ベンチマークが要約される。
本稿では,vadに対するオープンな課題と有望な研究動向,例えば,クロスモーダル対話コンテキストにおける人間-機械対話の認知メカニズム,知識強化型クロスモーダルセマンティクスインタラクションについて述べる。
関連論文リスト
- Human-Robot Dialogue Annotation for Multi-Modal Common Ground [4.665414514091581]
本稿では,人間とロボットの対話データにアノテートした記号表現の開発について述べる。
遠隔対話では,人間とロボットが不慣れな環境における共同ナビゲーションと探索作業に従事しているが,ロボットは限られた通信制約のため,すぐには高品質な視覚情報を共有できない。
このパラダイム内では、抽象的意味表現の強化である対話-AMRアノテーションを通じて、対話中の1つの発話の命題意味と補間力を取り込む。
論文 参考訳(メタデータ) (2024-11-19T19:33:54Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - I Was Blind but Now I See: Implementing Vision-Enabled Dialogue in
Social Robots [0.040792653193642496]
本稿では、従来のテキストベースのプロンプトをリアルタイム視覚入力で強化する対話マネージャの初期実装について述べる。
システムの迅速なエンジニアリングは、画像の要約と対話を組み込むことで、コンテキスト保存と計算効率のバランスを確保する。
論文 参考訳(メタデータ) (2023-11-15T13:47:00Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - A Review of Dialogue Systems: From Trained Monkeys to Stochastic Parrots [0.0]
人工知能をデプロイして、人間と会話できる自動対話エージェントを構築することを目指している。
本稿では,長年にわたって対話システムを構築するために開発された手法について概説する。
論文 参考訳(メタデータ) (2021-11-02T08:07:55Z) - Advances in Multi-turn Dialogue Comprehension: A Survey [51.215629336320305]
自然言語を理解し、人間と対話するための訓練機械は、人工知能の解明と本質的なタスクである。
本稿では,対話理解タスクにおける対話モデリングの技術的視点から,過去の手法を概観する。
さらに,対話シナリオにおけるPrLMの強化に使用される対話関連事前学習手法を分類する。
論文 参考訳(メタデータ) (2021-10-11T03:52:37Z) - Advances in Multi-turn Dialogue Comprehension: A Survey [51.215629336320305]
対話モデリングの観点から,従来の手法を検討した。
対話理解タスクで広く使用されている対話モデリングの3つの典型的なパターンについて議論します。
論文 参考訳(メタデータ) (2021-03-04T15:50:17Z) - Exploring Recurrent, Memory and Attention Based Architectures for
Scoring Interactional Aspects of Human-Machine Text Dialog [9.209192502526285]
本稿は、複数のニューラルアーキテクチャを調べるために、この方向の以前の研究に基づいている。
我々は,クラウドベースの対話システムと対話する人間の学習者からテキストダイアログの対話データベース上で実験を行う。
複数のアーキテクチャの融合は、専門家間の合意に比較して、我々の自動スコアリングタスクにおいて有能に機能することがわかった。
論文 参考訳(メタデータ) (2020-05-20T03:23:00Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。