Fugu-MT 論文翻訳(概要): Audio-Visual Understanding of Passenger Intents for In-Cabin Conversational Agents

論文の概要: Audio-Visual Understanding of Passenger Intents for In-Cabin Conversational Agents

arxiv url: http://arxiv.org/abs/2007.03876v1
Date: Wed, 8 Jul 2020 03:31:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-12 13:06:07.651977
Title: Audio-Visual Understanding of Passenger Intents for In-Cabin Conversational Agents
Title（参考訳）: カービン内会話エージェントにおける客室乗務員の聴覚的理解
Authors: Eda Okur, Shachi H Kumar, Saurav Sahay, Lama Nachman
Abstract要約: 車両内状況における多モード対話理解機能の構築は、自律走行車(AV)インタラクションシステムにおける乗客の快適性を高めるために重要である。本研究では,車内および車外からの言語/言語入力と非言語/音響的・視覚的手がかりを組み込むことにより,車内発話のマルチモーダル理解のメリットについて議論する。
参考スコア（独自算出の注目度）: 9.507869508188266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building multimodal dialogue understanding capabilities situated in the in-cabin context is crucial to enhance passenger comfort in autonomous vehicle (AV) interaction systems. To this end, understanding passenger intents from spoken interactions and vehicle vision systems is a crucial component for developing contextual and visually grounded conversational agents for AV. Towards this goal, we explore AMIE (Automated-vehicle Multimodal In-cabin Experience), the in-cabin agent responsible for handling multimodal passenger-vehicle interactions. In this work, we discuss the benefits of a multimodal understanding of in-cabin utterances by incorporating verbal/language input together with the non-verbal/acoustic and visual clues from inside and outside the vehicle. Our experimental results outperformed text-only baselines as we achieved improved performances for intent detection with a multimodal approach.
Abstract（参考訳）: 車両内状況における多モード対話理解機能の構築は、自律走行車(AV)インタラクションシステムにおける乗客の快適性を高めるために重要である。この目的のために、音声対話と車両ビジョンシステムから乗客の意図を理解することは、avのための文脈的および視覚的な会話エージェントを開発する上で重要な要素である。本研究の目的は、車内エージェントであるAMIE(Automated-vehicle Multimodal In-cabin Experience)を探索することである。本研究では,車内および車外からの言語/言語入力と非言語/音響的・視覚的手がかりを組み込むことにより,車内発話のマルチモーダル理解のメリットについて論じる。実験結果は,マルチモーダルアプローチによる意図検出の性能向上により,テキストのみベースラインを上回った。

関連論文リスト

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction [105.88658935310605]
視覚情報と音声情報の両方を段階的に学習する多段階学習手法を提案する。提案手法は, 視覚言語能力の強化だけでなく, 音声音声対話の効率向上にも寄与する。画像, ビデオ, 音声タスクのベンチマークにおいて, 我々の手法を最先端の手法と比較することにより, モデルが強い視覚と音声の両機能を備えていることを示す。
論文参考訳（メタデータ） (2025-01-03T18:59:52Z)
Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文参考訳（メタデータ） (2024-10-18T03:26:06Z)
Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文参考訳（メタデータ） (2024-08-29T08:53:26Z)
DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。 DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-08-09T14:04:21Z)
Unveiling the Impact of Multi-Modal Interactions on User Engagement: A Comprehensive Evaluation in AI-driven Conversations [17.409790984399052]
本稿では,画像と音声をテキストと併用したマルチモーダルインタラクションがユーザエンゲージメントに与える影響について検討する。本研究は,テキストのみの対話に比べて,マルチモーダルインタラクションによるユーザエンゲージメントが著しく向上していることを明らかにする。その結果,マルチモーダルインタラクションは認知処理を最適化し,より豊かな情報理解を促進することが示唆された。
論文参考訳（メタデータ） (2024-06-21T09:26:55Z)
Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文参考訳（メタデータ） (2023-11-26T09:11:32Z)
Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review [40.49926141538684]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。 VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文参考訳（メタデータ） (2022-07-02T09:31:37Z)
Duplex Conversation: Towards Human-like Interaction in Spoken Dialogue System [120.70726465994781]
マルチモーダル音声対話システムにより、電話ベースのエージェントが、人間のような顧客と対話できる。製品で学んだ教訓を共有するために、Conversation Duplex Alibabaのインテリジェントなカスタマサービスをデプロイしています。オンラインA/B実験は,提案システムにおいて応答遅延を50%低減できることを示した。
論文参考訳（メタデータ） (2022-05-30T12:41:23Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
ML-PersRef: A Machine Learning-based Personalized Multimodal Fusion Approach for Referencing Outside Objects From a Moving Vehicle [0.0]
シミュレーション環境下での長い運転経路を維持しながら、車外物体を参照するための学習に基づくマルチモーダル融合手法を提案する。また,各ドライバに対して適応型パーソナライズシステムを実現するために,参照タスクの完了時にユーザ間の行動差を利用する方法を示す。
論文参考訳（メタデータ） (2021-11-03T16:22:17Z)
V2VNet: Vehicle-to-Vehicle Communication for Joint Perception and Prediction [74.42961817119283]
車両間通信(V2V)を用いて、自動運転車の知覚と運動予測性能を向上させる。複数の車両から受信した情報をインテリジェントに集約することで、異なる視点から同じシーンを観察することができる。
論文参考訳（メタデータ） (2020-08-17T17:58:26Z)
Detecting depression in dyadic conversations with multimodal narratives and visualizations [1.4824891788575418]
本稿では,人間による会話の分析を支援するシステムを開発する。本研究では,マルチモーダル情報を広範囲に取り込み,個人の抑うつ状態を予測するための予測スコアを自動生成するシステムについて述べる。
論文参考訳（メタデータ） (2020-01-13T10:47:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。