論文の概要: FindView: Precise Target View Localization Task for Look Around Agents
- arxiv url: http://arxiv.org/abs/2303.09054v1
- Date: Thu, 16 Mar 2023 03:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:05:02.759715
- Title: FindView: Precise Target View Localization Task for Look Around Agents
- Title(参考訳): FindView: エージェントを見回すための精密なターゲットビューローカライゼーションタスク
- Authors: Haruya Ishikawa, Yoshimitsu Aoki
- Abstract要約: 本研究では、FinderViewタスクと呼ばれるエージェントを探索するターゲットビューの正確なローカライゼーションの新規かつ簡単なタスクを提案する。
このタスクは360度メディアのカメラやユーザインタフェースの動きを模倣し、オブザーバーはターゲットと正確に一致するビューを見つけるために「周りを見回す」必要がある。
- 参考スコア(独自算出の注目度): 3.8377728124578865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increase in demands for service robots and automated inspection,
agents need to localize in its surrounding environment to achieve more natural
communication with humans by shared contexts. In this work, we propose a novel
but straightforward task of precise target view localization for look around
agents called the FindView task. This task imitates the movements of PTZ
cameras or user interfaces for 360 degree mediums, where the observer must
"look around" to find a view that exactly matches the target. To solve this
task, we introduce a rule-based agent that heuristically finds the optimal view
and a policy learning agent that employs reinforcement learning to learn by
interacting with the 360 degree scene. Through extensive evaluations and
benchmarks, we conclude that learned methods have many advantages, in
particular precise localization that is robust to corruption and can be easily
deployed in novel scenes.
- Abstract(参考訳): サービスロボットの需要の増加と自動検査により、エージェントは周囲の環境をローカライズし、共有コンテキストによって人間とより自然なコミュニケーションを実現する必要がある。
本研究では,FinderViewタスクと呼ばれるエージェントを探索するターゲットビューの正確なローカライゼーションを,新規かつ簡単なタスクとして提案する。
このタスクは、PTZカメラや360度メディアのユーザインタフェースの動きを模倣し、オブザーバーがターゲットと正確に一致するビューを見つけるために「周りを見回す」必要がある。
そこで本研究では,360度シーンと対話することで,学習のための強化学習を活用し,最適な視点をヒューリスティックに求めるルールベースエージェントと,政策学習エージェントを提案する。
広範な評価とベンチマークを通じて,学習手法には多くの利点,特に腐敗に頑健で,新たな場面に容易に展開できる正確な局所化がある,と結論づけた。
関連論文リスト
- Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Task-Focused Few-Shot Object Detection for Robot Manipulation [1.8275108630751844]
本研究では,検出のみに基づく操作手法を開発し,タスク中心の少数ショット検出を導入し,新しいオブジェクトや設定を学習する。
数ショット学習へのインタラクティブなアプローチの実験では、ロボットに検出からオブジェクトを直接操作するように訓練する(ClickBot)。
論文 参考訳(メタデータ) (2022-01-28T21:52:05Z) - Do Pedestrians Pay Attention? Eye Contact Detection in the Wild [75.54077277681353]
都市環境では、人間は近くの人々との迅速かつ効率的なコミュニケーションのためにアイコンタクトに依存している。
本稿では,環境や歩行者距離を制御できない自動運転車の眼球接触検出,すなわち実世界のシナリオに着目した。
本稿では, セマンティックキーポイントを利用したアイコンタクト検出モデルを導入し, このハイレベルな表現が, 一般公開データセットJAADの最先端結果を実現することを示す。
ドメイン適応を研究するために、私たちは、野生のアイコンタクト検出のための大規模データセット、LOOKを作成しました。
論文 参考訳(メタデータ) (2021-12-08T10:21:28Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - Tracking by Joint Local and Global Search: A Target-aware Attention
based Approach [63.50045332644818]
本研究では、ロバストな追跡のための局所的・グローバルな共同探索を行うための新たな目標認識型アテンション機構(TANet)を提案する。
具体的には、ターゲットオブジェクトパッチと連続ビデオフレームの特徴を抽出し、それらをデコーダネットワークに追従して、ターゲットを意識したグローバルアテンションマップを生成する。
追跡手順において、ロバストな追跡のための候補探索領域を探索することにより、ターゲット認識の注意を複数のトラッカーと統合する。
論文 参考訳(メタデータ) (2021-06-09T06:54:15Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - One-Shot Informed Robotic Visual Search in the Wild [29.604267552742026]
本研究では,環境モニタリングのための映像データ収集を目的とした水中ロボットナビゲーションの課題について考察する。
現在、フィールドロボットの大多数は、未構造化の自然環境における監視タスクを実行しており、経路追跡を通じて、指定された経路ポイントのシーケンスをナビゲートしている。
そこで本研究では,ロボットの視覚的探索を視覚的類似度演算子を用いて視覚的ナビゲーションを実現する手法を提案する。
論文 参考訳(メタデータ) (2020-03-22T22:14:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。