論文の概要: Omnidirectional Information Gathering for Knowledge Transfer-based
Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2308.10306v1
- Date: Sun, 20 Aug 2023 16:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:19:10.437428
- Title: Omnidirectional Information Gathering for Knowledge Transfer-based
Audio-Visual Navigation
- Title(参考訳): 知識伝達に基づくオーディオビジュアルナビゲーションのための全方向情報収集
- Authors: Jinyu Chen, Wenguan Wang, Si Liu, Hongsheng Li, Yi Yang
- Abstract要約: ORANは、クロスタスクナビゲーションスキル転送に基づく全方向オーディオ視覚ナビゲータである。
ORANは、ウェイフィンディング(ウェイフィンディング)とオーディオ視覚情報収集(オーディオ視覚情報収集)という、2つの基本的な能力を強化している。
- 参考スコア(独自算出の注目度): 95.2546147495844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual navigation is an audio-targeted wayfinding task where a robot
agent is entailed to travel a never-before-seen 3D environment towards the
sounding source. In this article, we present ORAN, an omnidirectional
audio-visual navigator based on cross-task navigation skill transfer. In
particular, ORAN sharpens its two basic abilities for a such challenging task,
namely wayfinding and audio-visual information gathering. First, ORAN is
trained with a confidence-aware cross-task policy distillation (CCPD) strategy.
CCPD transfers the fundamental, point-to-point wayfinding skill that is well
trained on the large-scale PointGoal task to ORAN, so as to help ORAN to better
master audio-visual navigation with far fewer training samples. To improve the
efficiency of knowledge transfer and address the domain gap, CCPD is made to be
adaptive to the decision confidence of the teacher policy. Second, ORAN is
equipped with an omnidirectional information gathering (OIG) mechanism, i.e.,
gleaning visual-acoustic observations from different directions before
decision-making. As a result, ORAN yields more robust navigation behaviour.
Taking CCPD and OIG together, ORAN significantly outperforms previous
competitors. After the model ensemble, we got 1st in Soundspaces Challenge
2022, improving SPL and SR by 53% and 35% relatively.
- Abstract(参考訳): オーディオ視覚ナビゲーション(Audio-visual navigation)は、ロボットエージェントが音の源に向かって、これまで見たことのない3D環境を移動させる作業である。
本稿では,クロスタスクナビゲーション技術を用いた全方向視聴覚ナビレータoranについて述べる。
特にORANは、ウェイフィンディングとオーディオ視覚情報収集という、2つの基本的な能力を強化している。
第一に、ORANは信頼を意識したクロスタスク政策蒸留(CCPD)戦略で訓練されている。
CCPDは、大規模なPointGoalタスクで十分に訓練された基本的なポイントツーポイントのウェイフィニングスキルをORANに転送する。
知識伝達の効率を向上し、ドメインギャップに対処するため、CCPDは教師方針の決定信頼度に適応するようにした。
第2に、ORANは全方位情報収集(OIG)機構、すなわち、意思決定の前に異なる方向から視覚音響観測を行う。
その結果、ORANはより堅牢なナビゲーション動作をもたらす。
CCPDとOIGを合わせたORANは、これまでのライバルよりも大幅に上回っている。
モデルアンサンブルの後、Soundspaces Challenge 2022で1位を獲得し、SPLとSRを53%、相対的に35%改善しました。
関連論文リスト
- NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Multi-goal Audio-visual Navigation using Sound Direction Map [10.152838128195468]
マルチゴール音声視覚ナビゲーションのための新しいフレームワークを提案する。
この研究は、マルチゴールオーディオ視覚ナビゲーションが、音源を分離する暗黙的な必要性の難しさを示唆している。
本研究では,複数の音源を学習的手法で動的に局所化するSDM法を提案する。
論文 参考訳(メタデータ) (2023-08-01T01:26:55Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Towards Generalisable Audio Representations for Audio-Visual Navigation [18.738943602529805]
オーディオ視覚ナビゲーション(AVN)では、知的エージェントが複雑な3D環境下で常に音を出す物体にナビゲートする必要がある。
本稿では,音声エンコーダの正規化により,この課題に対処するための対照的な学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-01T11:00:07Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Learning Object Relation Graph and Tentative Policy for Visual
Navigation [44.247995617796484]
情報的視覚表現とロバストなナビゲーションポリシーを学ぶことは重要である。
本稿では、オブジェクト関係グラフ(ORG)、試行駆動型模倣学習(IL)、メモリ拡張仮ポリシーネットワーク(TPN)の3つの補完手法を提案する。
パス長(SPL)による成功率と成功率の22.8%と23.5%の増加を報告した。
論文 参考訳(メタデータ) (2020-07-21T18:03:05Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。