論文の概要: Active Sparse Conversations for Improved Audio-Visual Embodied
Navigation
- arxiv url: http://arxiv.org/abs/2306.04047v1
- Date: Tue, 6 Jun 2023 22:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 16:58:37.576500
- Title: Active Sparse Conversations for Improved Audio-Visual Embodied
Navigation
- Title(参考訳): 聴覚・身体的ナビゲーション改善のためのアクティブスパース会話
- Authors: Xiulong Liu, Sudipta Paul, Moitreya Chatterjee, Anoop Cherian
- Abstract要約: CAVEN (英語: CAVEN) は、音声・視覚的ナビゲーションエージェントである。
ナビゲーションの質問を人間/オラクルにポーズさせ、オラクルの応答を処理できる。
CAVENは競合するメソッドよりもパフォーマンスが最大12%向上する。
- 参考スコア(独自算出の注目度): 38.29803463832662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient navigation towards an audio-goal necessitates an embodied agent to
not only possess the ability to use audio-visual cues effectively, but also be
equipped to actively (but occasionally) seek human/oracle assistance without
sacrificing autonomy, e.g., when it is uncertain of where to navigate towards
locating a noisy or sporadic audio goal. To this end, we present CAVEN -- a
conversational audio-visual embodied navigation agent that is capable of posing
navigation questions to a human/oracle and processing the oracle responses;
both in free-form natural language. At the core of CAVEN is a multimodal
hierarchical reinforcement learning (RL) setup that is equipped with a
high-level policy that is trained to choose from one of three low-level
policies (at every step), namely: (i) to navigate using audio-visual cues, or
(ii) to frame a question to the oracle and receive a short or detailed
response, or (iii) ask generic questions (when unsure of what to ask) and
receive instructions. Key to generating the agent's questions is our novel
TrajectoryNet that forecasts the most likely next steps to the goal and a
QuestionNet that uses these steps to produce a question. All the policies are
learned end-to-end via the RL setup, with penalties to enforce sparsity in
receiving navigation instructions from the oracle. To evaluate the performance
of CAVEN, we present extensive experiments on the SoundSpaces framework for the
task of semantic audio-visual navigation. Our results show that CAVEN achieves
upto 12% gain in performance over competing methods, especially in localizing
new sound sources, even in the presence of auditory distractions.
- Abstract(参考訳): オーディオゴールへの効率的なナビゲーションは、音声視覚的手がかりを効果的に活用する能力を持つだけでなく、ノイズや散発的なオーディオゴールの場所が不確実である場合など、自律性を犠牲にすることなく、積極的に(時折)人やオラクルの援助を求める能力を備えることを必要とする。
この目的のために、我々は、人間/オラクルにナビゲーションの質問をポーズし、oracle応答を処理できる会話型音声ビジュアルエンボディドナビゲーションエージェントであるcavenを紹介します。
CAVENの中核にあるマルチモーダル階層型強化学習(RL)は、3つの低レベルポリシーのうちの1つ(各ステップ)から選択するように訓練された高レベルポリシーを備えている。
(i)音声・視覚的手がかりを用いたナビゲーション、または
(ii) 質問をオラクルに送付し、短い、または詳細な回答を受け取ること。
(iii)総称的な質問(何を尋ねるべきかわからない場合)をして、指示を受けること。
エージェントの質問を生成する鍵となるのは、目標への最も可能性が高い次のステップを予測するTrajectoryNetと、これらのステップを使用して質問を生成するQQNetです。
すべてのポリシーはRLセットアップを通じてエンドツーエンドで学習され、神託からのナビゲーション命令の受け取りにおいて、ペナルティが課せられる。
CAVENの性能を評価するため,意味的音声視覚ナビゲーションのためのSoundSpacesフレームワークについて広範な実験を行った。
その結果,新しい音源の局所化においては,聴覚障害の存在下でも,競合する手法に比べて最大12%の性能向上が達成できることがわかった。
関連論文リスト
- AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。
FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文 参考訳(メタデータ) (2022-10-04T03:42:36Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Audio-video fusion strategies for active speaker detection in meetings [5.61861182374067]
本稿では,2つの視覚的モダリティと,ニューラルネットワークによる音響的モダリティを組み合わせた,アクティブ話者検出のための2種類の融合を提案する。
アプリケーションコンテキストでは、モーション情報の追加がパフォーマンスを大幅に改善します。
注意に基づく融合は, 標準偏差を低減しつつ, 性能を向上することを示した。
論文 参考訳(メタデータ) (2022-06-09T08:20:52Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Semantic Audio-Visual Navigation [93.12180578267186]
環境内のオブジェクトが意味的意味と一致する音を作るセマンティックオーディオビジュアルナビゲーションを紹介します。
この新しい意味を持つAudioGoalタスクに取り組むトランスフォーマーベースのモデルを提案する。
本手法は, 意味, 音響, 視覚の手がかりを関連付ける学習により, 既存の視聴覚ナビゲーション手法を大きく上回っている。
論文 参考訳(メタデータ) (2020-12-21T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。