論文の概要: Towards Active Vision for Action Localization with Reactive Control and
Predictive Learning
- arxiv url: http://arxiv.org/abs/2111.05448v1
- Date: Tue, 9 Nov 2021 23:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 00:14:54.670829
- Title: Towards Active Vision for Action Localization with Reactive Control and
Predictive Learning
- Title(参考訳): 反応制御と予測学習による行動局在のアクティブビジョンに向けて
- Authors: Shubham Trehan, Sathyanarayanan N. Aakur
- Abstract要約: 我々は、予測学習と反応制御を組み合わせたエネルギーベースのメカニズムを定式化し、報酬なしでアクティブな行動ローカライゼーションを行う。
提案手法は,明示的な報酬やトレーニングを伴わずに,ストリーミング方式でさまざまなタスクや環境に一般化できることを実証する。
- 参考スコア(独自算出の注目度): 8.22379888383833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual event perception tasks such as action localization have primarily
focused on supervised learning settings under a static observer, i.e., the
camera is static and cannot be controlled by an algorithm. They are often
restricted by the quality, quantity, and diversity of \textit{annotated}
training data and do not often generalize to out-of-domain samples. In this
work, we tackle the problem of active action localization where the goal is to
localize an action while controlling the geometric and physical parameters of
an active camera to keep the action in the field of view without training data.
We formulate an energy-based mechanism that combines predictive learning and
reactive control to perform active action localization without rewards, which
can be sparse or non-existent in real-world environments. We perform extensive
experiments in both simulated and real-world environments on two tasks - active
object tracking and active action localization. We demonstrate that the
proposed approach can generalize to different tasks and environments in a
streaming fashion, without explicit rewards or training. We show that the
proposed approach outperforms unsupervised baselines and obtains competitive
performance compared to those trained with reinforcement learning.
- Abstract(参考訳): アクションローカライゼーションのような視覚イベント知覚タスクは、主に静的オブザーバの下で教師付き学習設定、すなわち、カメラは静的であり、アルゴリズムでは制御できない。
それらはしばしば、textit{annotated}トレーニングデータの品質、量、多様性によって制限され、ドメイン外のサンプルに一般化されないことが多い。
本研究では,アクティブカメラの幾何学的・物理的パラメータを制御しつつ,アクションのローカライズを目標とするアクティブアクションローカライズの問題に対処し,データをトレーニングすることなく動作を視野内に保持する。
予測学習とリアクティブ制御を組み合わせたエネルギーベースのメカニズムを定式化し,実環境においてスパースあるいは非存在となり得る報酬なしでアクティブな行動局在化を行う。
シミュレーション環境と実環境の両方において,アクティブオブジェクトトラッキングとアクティブアクションローカライズという2つのタスクで広範な実験を行った。
提案手法は,明示的な報酬やトレーニングを伴わずに,ストリーミング形式で異なるタスクや環境に一般化できることを実証する。
提案手法は教師なしのベースラインよりも優れており,強化学習の訓練者に比べて競争性能が高いことを示す。
関連論文リスト
- Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based
Agile Flight [21.728935597793473]
本研究では、ゼロショットシーン転送と実世界展開を可能にする視覚表現学習のための適応型マルチペアコントラスト学習戦略を提案する。
私たちは、アジャイルでビジョンベースの4倍体飛行のタスクに対して、私たちのアプローチのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2023-09-18T15:25:59Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - Trajectory-based Reinforcement Learning of Non-prehensile Manipulation
Skills for Semi-Autonomous Teleoperation [18.782289957834475]
本稿では,RGB-Dセンサを用いたピックアップ・アンド・プレイスタスクのための半自律遠隔操作フレームワークを提案する。
トラジェクトリに基づく強化学習を用いて、非包括的操作を学習し、物体を再構成する。
提案手法は,握り時間の観点から手動キーボード制御よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-27T14:27:28Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Active Visual Localization in Partially Calibrated Environments [35.48595012305253]
人間は、目立った視覚的な手がかりやランドマークに追われて地図を使わずに、自分自身をしっかりとローカライズすることができる。
この研究では、自律エージェントを同じ能力でエンドウイングすることを目指している。
このような能力はロボットアプリケーションにおいて重要であるが、エージェントが部分的に調整された環境に晒される場合、非常に困難である。
合成データと実データの両方で構成された屋内シーンデータセットACR-6を提案し、アクティブビジュアルローカリゼーションのための困難なシナリオをシミュレートします。
論文 参考訳(メタデータ) (2020-12-08T08:00:55Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。