論文の概要: Apple: Toward General Active Perception via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.06182v3
- Date: Tue, 30 Sep 2025 16:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.730802
- Title: Apple: Toward General Active Perception via Reinforcement Learning
- Title(参考訳): Apple:強化学習による一般能動的知覚に向けて
- Authors: Tim Schneider, Cristiana de Farias, Roberto Calandra, Liming Chen, Jan Peters,
- Abstract要約: APPLE(Active Perception Policy Learning)は、さまざまなアクティブな知覚問題に対処する新しいフレームワークである。
設計上、APPLEは特定のタスクに限らず、原則として幅広い能動的知覚問題に適用できる。
実験はAPPLEの有効性を示し、回帰タスクと分類タスクの両方で高い精度を達成する。
- 参考スコア(独自算出の注目度): 17.92494758004686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active perception is a fundamental skill that enables us humans to deal with uncertainty in our inherently partially observable environment. For senses such as touch, where the information is sparse and local, active perception becomes crucial. In recent years, active perception has emerged as an important research domain in robotics. However, current methods are often bound to specific tasks or make strong assumptions, which limit their generality. To address this gap, this work introduces APPLE (Active Perception Policy Learning) - a novel framework that leverages reinforcement learning (RL) to address a range of different active perception problems. APPLE jointly trains a transformer-based perception module and decision-making policy with a unified optimization objective, learning how to actively gather information. By design, APPLE is not limited to a specific task and can, in principle, be applied to a wide range of active perception problems. We evaluate two variants of APPLE across different tasks, including tactile exploration problems from the Tactile MNIST benchmark. Experiments demonstrate the efficacy of APPLE, achieving high accuracies on both regression and classification tasks. These findings underscore the potential of APPLE as a versatile and general framework for advancing active perception in robotics.
- Abstract(参考訳): アクティブな知覚は、人間が自然に部分的に観察可能な環境における不確実性に対処できる基本的なスキルである。
情報がまばらで局所的なタッチのような感覚では、アクティブな知覚が不可欠である。
近年、ロボット工学の重要な研究領域として活発な認識が生まれている。
しかし、現在の方法はしばしば特定のタスクに結びついているか、あるいは強い仮定をしているため、一般性は制限される。
このギャップに対処するために、この研究はAPPLE(Active Perception Policy Learning)を導入している。
APPLEは、トランスフォーマーベースの知覚モジュールと意思決定ポリシーを統一された最適化目標で共同で訓練し、情報収集の方法を学ぶ。
設計上、APPLEは特定のタスクに限らず、原則として幅広い能動的知覚問題に適用できる。
我々は,Tactile MNISTベンチマークによる触覚探索問題を含む,異なるタスクにおけるAPPLEの2つのバリエーションを評価する。
実験はAPPLEの有効性を示し、回帰タスクと分類タスクの両方において高い精度を達成する。
これらの知見は、ロボット工学における能動的知覚を促進するための汎用的で汎用的な枠組みとしてのAPPLEの可能性を強調している。
関連論文リスト
- Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [85.65102094981802]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。
提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-08-07T09:21:20Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。
強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2025-05-18T07:33:31Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Deep Active Perception for Object Detection using Navigation Proposals [39.52573252842573]
オブジェクト検出のための汎用的な教師付き能動知覚パイプラインを提案する。
既存のオフ・ザ・シェルフ・オブジェクト・ディテクターを使って訓練でき、シミュレーション環境の進歩も活用できる。
提案手法は, Webots ロボットシミュレータ内に構築された合成データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-12-15T20:55:52Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - AcTExplore: Active Tactile Exploration of Unknown Objects [17.755567328263847]
本稿では, 大規模オブジェクト再構成のための強化学習による能動的触覚探索手法であるAcTExploreを提案する。
本アルゴリズムは, 触覚データを段階的に収集し, 物体の3次元形状を再構築する。
本手法は, 未確認のYCBオブジェクトに対して平均95.97%のIoUカバレッジを達成し, 原始形状でのみ訓練する。
論文 参考訳(メタデータ) (2023-10-12T22:15:06Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Active Visual Search in the Wild [12.354788629408933]
本稿では,フリーフォーム言語を用いてターゲットコマンドを入力できるシステムを提案する。
私たちはこのシステムをActive Visual Search in the Wild (AVSW)と呼んでいる。
AVSWは、静的なランドマークで表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出し、検索する計画である。
論文 参考訳(メタデータ) (2022-09-19T07:18:46Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Object-Driven Active Mapping for More Accurate Object Pose Estimation
and Robotic Grasping [5.385583891213281]
このフレームワークは、オブジェクトSLAMシステム上に構築され、同時多目的ポーズ推定プロセスと統合される。
マッピングモジュールと探索戦略を組み合わせることにより、ロボットの把握と互換性のある正確なオブジェクトマップを生成することができる。
論文 参考訳(メタデータ) (2020-12-03T09:36:55Z) - Dynamic Feature Integration for Simultaneous Detection of Salient
Object, Edge and Skeleton [108.01007935498104]
本稿では,高次物体分割,エッジ検出,スケルトン抽出など,低レベルの3つの視覚問題を解く。
まず、これらのタスクで共有される類似点を示し、統一されたフレームワークの開発にどのように活用できるかを示す。
論文 参考訳(メタデータ) (2020-04-18T11:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。