論文の概要: CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual
Navigation in Noisy Environments
- arxiv url: http://arxiv.org/abs/2306.04047v2
- Date: Wed, 27 Dec 2023 02:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:03:35.356409
- Title: CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual
Navigation in Noisy Environments
- Title(参考訳): CAVEN:雑音環境下での高能率音声・ビジュアルナビゲーションのための会話エージェント
- Authors: Xiulong Liu, Sudipta Paul, Moitreya Chatterjee, Anoop Cherian
- Abstract要約: CAVENは、エージェントが音声目標にナビゲートするタスクを解決するためのヒューマン/オーラルと対話することのできるフレームワークである。
以上の結果から,我々の全会話的アプローチは,成功率のオーダー・オブ・マグニチュード改善にほぼ寄与していることがわかった。
- 参考スコア(独自算出の注目度): 41.21509045214965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual navigation of an agent towards locating an audio goal is a
challenging task especially when the audio is sporadic or the environment is
noisy. In this paper, we present CAVEN, a Conversation-based Audio-Visual
Embodied Navigation framework in which the agent may interact with a
human/oracle for solving the task of navigating to an audio goal. Specifically,
CAVEN is modeled as a budget-aware partially observable semi-Markov decision
process that implicitly learns the uncertainty in the audio-based navigation
policy to decide when and how the agent may interact with the oracle. Our CAVEN
agent can engage in fully-bidirectional natural language conversations by
producing relevant questions and interpret free-form, potentially noisy
responses from the oracle based on the audio-visual context. To enable such a
capability, CAVEN is equipped with: (i) a trajectory forecasting network that
is grounded in audio-visual cues to produce a potential trajectory to the
estimated goal, and (ii) a natural language based question generation and
reasoning network to pose an interactive question to the oracle or interpret
the oracle's response to produce navigation instructions. To train the
interactive modules, we present a large scale dataset: AVN-Instruct, based on
the Landmark-RxR dataset. To substantiate the usefulness of conversations, we
present experiments on the benchmark audio-goal task using the SoundSpaces
simulator under various noisy settings. Our results reveal that our
fully-conversational approach leads to nearly an order-of-magnitude improvement
in success rate, especially in localizing new sound sources and against methods
that only use uni-directional interaction.
- Abstract(参考訳): 特に音声が散発的である場合や環境が騒がしい場合、音声目標の特定に向けたエージェントの視聴覚ナビゲーションは難しい課題である。
本稿では,エージェントが人間/オラクルと対話し,音声目標へのナビゲートの課題を解決するための対話型視聴覚具体化ナビゲーションフレームワークであるcavenを提案する。
具体的には、CAVENを半可観測的な半マルコフ決定プロセスとしてモデル化し、音声ベースのナビゲーションポリシーの不確かさを暗黙的に学習して、エージェントがオラクルといつどのように相互作用するかを決定する。
我々のCAVENエージェントは、関連する質問を生成し、オーディオ視覚コンテキストに基づいて、オラクルから自由な、潜在的にノイズの多い応答を解釈することで、完全な双方向の自然言語会話を行うことができる。
このような機能を実現するため、CAVENは以下の機能を備えている。
一 推定目標に対する潜在的な軌道を生成するために、音声・視覚的手がかりに基礎を置いている軌道予測ネットワーク
(ii)自然言語に基づく質問生成・推論ネットワークは、オラクルに対してインタラクティブな質問をしたり、オラクルの応答を解釈してナビゲーション命令を生成する。
インタラクティブモジュールをトレーニングするために,ランドマークrxrデータセットに基づいた大規模データセットavn-instructを提案する。
本研究では,様々な雑音環境下でのSoundSpacesシミュレータを用いて,音声目標タスクのベンチマーク実験を行った。
その結果,新しい音源のローカライズや一方向インタラクションのみを使用する手法に対して,全会話的アプローチは成功率の桁違いな改善をもたらすことが明らかとなった。
関連論文リスト
- AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。
FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文 参考訳(メタデータ) (2022-10-04T03:42:36Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Audio-video fusion strategies for active speaker detection in meetings [5.61861182374067]
本稿では,2つの視覚的モダリティと,ニューラルネットワークによる音響的モダリティを組み合わせた,アクティブ話者検出のための2種類の融合を提案する。
アプリケーションコンテキストでは、モーション情報の追加がパフォーマンスを大幅に改善します。
注意に基づく融合は, 標準偏差を低減しつつ, 性能を向上することを示した。
論文 参考訳(メタデータ) (2022-06-09T08:20:52Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。