論文の概要: Auto-TransRL: Autonomous Composition of Vision Pipelines for Robotic
Perception
- arxiv url: http://arxiv.org/abs/2209.02991v1
- Date: Wed, 7 Sep 2022 08:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 13:01:52.114704
- Title: Auto-TransRL: Autonomous Composition of Vision Pipelines for Robotic
Perception
- Title(参考訳): Auto-TransRL:ロボット知覚のためのビジョンパイプラインの自律的構成
- Authors: Aditya Kapoor, Nijil George, Vartika Sengar, Vighnesh Vatsal and
Jayavardhana Gubbi
- Abstract要約: 経験、試行錯誤、テンプレートベースのアプローチを使わずに、ビジョンパイプラインを構築するための体系的な構造は存在しない。
我々は、ビジョンパイプライン構築に適したアルゴリズムの適切なセットを特定するために、動的でデータ駆動の方法を提案する。
本稿では,Deep Reinforcement Learningを補完するTransformer Architectureを導入し,ビジョンワークフローのさまざまな段階に組み込むことができるアルゴリズムを推奨する。
- 参考スコア(独自算出の注目度): 2.519906683279153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating a vision pipeline for different datasets to solve a computer vision
task is a complex and time consuming process. Currently, these pipelines are
developed with the help of domain experts. Moreover, there is no systematic
structure to construct a vision pipeline apart from relying on experience,
trial and error or using template-based approaches. As the search space for
choosing suitable algorithms for achieving a particular vision task is large,
human exploration for finding a good solution requires time and effort. To
address the following issues, we propose a dynamic and data-driven way to
identify an appropriate set of algorithms that would be fit for building the
vision pipeline in order to achieve the goal task. We introduce a Transformer
Architecture complemented with Deep Reinforcement Learning to recommend
algorithms that can be incorporated at different stages of the vision workflow.
This system is both robust and adaptive to dynamic changes in the environment.
Experimental results further show that our method also generalizes well to
recommend algorithms that have not been used while training and hence
alleviates the need of retraining the system on a new set of algorithms
introduced during test time.
- Abstract(参考訳): コンピュータビジョンタスクを解決するために、さまざまなデータセットのためのビジョンパイプラインを作成することは、複雑で時間のかかるプロセスである。
現在、これらのパイプラインはドメインエキスパートの助けを借りて開発されている。
さらに、経験、試行錯誤、テンプレートベースのアプローチに頼ること以外、ビジョンパイプラインを構築するための体系的な構造は存在しない。
特定のビジョンタスクを達成するのに適したアルゴリズムを選択する検索スペースは大きいため、優れた解を見つけるには時間と労力が必要である。
以下の問題に対処するために、目標を達成するためにビジョンパイプラインを構築するのに適したアルゴリズムの適切なセットを特定する、動的でデータ駆動の方法を提案する。
我々は,視覚ワークフローの異なる段階に組み込むアルゴリズムを推奨するために,深層強化学習を補完するトランスフォーマーアーキテクチャを導入する。
このシステムは、環境の動的変化に頑健で適応性がある。
さらに実験結果から,本手法は,トレーニング中に使用されていないアルゴリズムを推薦するためにも有効であり,テスト期間中に導入された新しいアルゴリズムでシステムを再訓練する必要がなくなることを示した。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning [12.608461657195367]
本研究では,累積的後悔を最小限に抑える近似アルゴリズムの学習を目標とするマルチタスク構造化バンディット問題について検討する。
我々は、この共有構造を学習するために、トランスフォーマーを意思決定アルゴリズムとして使用し、テストタスクに一般化する。
提案アルゴリズムは,問題の根底にある構造を知ることなく,コンテキスト内でほぼ最適のポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T16:34:31Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Toward an ImageNet Library of Functions for Global Optimization
Benchmarking [0.0]
本研究では,認識問題を画像認識問題に変換することを提案する。
教師付きマルチクラス画像認識問題として対処し、基本的ニューラルネットワークモデルを適用して解決する。
この明らかに成功した学習は、自動特徴抽出とBBO問題の局所構造推論への別のステップである。
論文 参考訳(メタデータ) (2022-06-27T21:05:00Z) - Automated Robustness with Adversarial Training as a Post-Processing Step [5.55549775099824]
この研究は、堅牢なディープラーニングモデルを得るための単純なポストプロセッシングステップの有効性を探求する。
我々は,ニューラルネットワーク探索アルゴリズムから得られる最適化ネットワークアーキテクチャの処理後ステップとして,逆トレーニングを採用する。
論文 参考訳(メタデータ) (2021-09-06T15:17:08Z) - Exploring Data Aggregation and Transformations to Generalize across
Visual Domains [0.0]
この論文は、ドメイン一般化(DG)、ドメイン適応(DA)およびそれらのバリエーションの研究に寄与する。
本稿では,機能集約戦略と視覚変換を利用するドメイン一般化とドメイン適応の新しいフレームワークを提案する。
提案手法が確立したDGおよびDAベンチマークにおいて,最先端の競争的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-20T14:58:14Z) - Automated Evolutionary Approach for the Design of Composite Machine
Learning Pipelines [48.7576911714538]
提案手法は、複合機械学習パイプラインの設計を自動化することを目的としている。
パイプラインをカスタマイズ可能なグラフベースの構造で設計し、得られた結果を分析して再生する。
このアプローチのソフトウェア実装は、オープンソースフレームワークとして紹介されている。
論文 参考訳(メタデータ) (2021-06-26T23:19:06Z) - Simultaneous Navigation and Construction Benchmarking Environments [73.0706832393065]
モバイル構築のためのインテリジェントなロボット、環境をナビゲートし、幾何学的設計に従ってその構造を変更するプロセスが必要です。
このタスクでは、ロボットのビジョンと学習の大きな課題は、GPSなしでデザインを正確に達成する方法です。
我々は,手工芸政策の性能を,基礎的なローカライゼーションと計画,最先端の深層強化学習手法を用いて評価した。
論文 参考訳(メタデータ) (2021-03-31T00:05:54Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。