論文の概要: Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids
- arxiv url: http://arxiv.org/abs/2308.14064v1
- Date: Sun, 27 Aug 2023 10:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 17:18:08.365792
- Title: Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids
- Title(参考訳): 注意支援に基づく空中視覚と対話ナビゲーションのための多モデル融合
- Authors: Xinyi Wang, Xuan Cui, Danxu Li, Fang Liu, Licheng Jiao
- Abstract要約: 本稿では,2023年ICCV会話史のための航空航法課題について述べる。
本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
- 参考スコア(独自算出の注目度): 69.98258892165767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drones have been widely used in many areas of our daily lives. It relieves
people of the burden of holding a controller all the time and makes drone
control easier to use for people with disabilities or occupied hands. However,
the control of aerial robots is more complicated compared to normal robots due
to factors such as uncontrollable height. Therefore, it is crucial to develop
an intelligent UAV that has the ability to talk to humans and follow natural
language commands. In this report, we present an aerial navigation task for the
2023 ICCV Conversation History. Based on the AVDN dataset containing more than
3k recorded navigation trajectories and asynchronous human-robot conversations,
we propose an effective method of fusion training of Human Attention Aided
Transformer model (HAA-Transformer) and Human Attention Aided LSTM (HAA-LSTM)
model, which achieves the prediction of the navigation routing points and human
attention. The method not only achieves high SR and SPL metrics, but also shows
a 7% improvement in GP metrics compared to the baseline model.
- Abstract(参考訳): ドローンは私たちの日常生活の多くの地域で広く使われている。
これは、常にコントローラーを握ることの負担を軽減し、障害や占領された手を持つ人々のために、ドローンのコントロールを使いやすくする。
しかし、制御不能高さなどの要因により、通常のロボットに比べて空中ロボットの制御は複雑である。
したがって、人間と会話し、自然言語コマンドに従う能力を持つインテリジェントなUAVを開発することが不可欠である。
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
3k以上のナビゲーショントラジェクトリと非同期なヒューマンロボット会話を含むAVDNデータセットに基づいて、ナビゲーションルーティングポイントと人間の注意を予測できる、ヒューマンアテンション支援トランスフォーマーモデル(HAA-Transformer)とヒューマンアテンション支援LSTM(HAA-LSTM)モデルの融合訓練法を提案する。
この手法は,高いSR値とSPL値を達成するだけでなく,ベースラインモデルと比較して,GP値の7%向上を示す。
関連論文リスト
- Combating Spatial Disorientation in a Dynamic Self-Stabilization Task Using AI Assistants [5.42300240053097]
空間的不整合は、致命的な航空機事故の主要な原因である。
本稿では、パイロットがバランスを維持し、回収不能な制御損失を防止できるAIエージェントの可能性について検討する。
論文 参考訳(メタデータ) (2024-09-09T21:06:22Z) - Human-Agent Joint Learning for Efficient Robot Manipulation Skill Acquisition [48.65867987106428]
本稿では,人間とロボットの協調学習システムについて紹介する。
これにより、ロボットエンドエフェクターの制御を学習支援エージェントと共有することができる。
これにより、ダウンストリームタスクにおいて、収集されたデータが十分な品質であることを保証しながら、人間の適応の必要性を減らすことができる。
論文 参考訳(メタデータ) (2024-06-29T03:37:29Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog
Navigation [10.25089706534778]
本報告では,ICCV CLVL 2023におけるAVDNチャレンジの入賞方法について詳述する。
Aerial Navigation from Dialog History (andH)タスクに対処するため、ドローンエージェントが対話履歴と空中観測を関連付ける必要がある。
ドローンエージェントのクロスモーダルグラウンド機能を改善するために,Target-Grounded Graph-Aware Transformer (TG-GAT) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-22T16:45:35Z) - AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning [63.628195002143734]
本稿では,空中映像の行動認識のための新しい手法を提案する。
提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。
我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-02T21:24:19Z) - Aerial Vision-and-Dialog Navigation [10.596163697911525]
本稿では,Aerial Vision-and-Dialog Navigation (AVDN)を紹介した。
連続した環境でドローンシミュレータを構築し、3k以上の航法軌跡を記録した新しいAVDNデータセットを収集する。
本研究では,ナビゲーション経路と人的注意の両方を予測するための効果的なヒューマンアテンション支援変換モデル(HAA-Transformer)を提案する。
論文 参考訳(メタデータ) (2022-05-24T17:28:14Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。