論文の概要: Act, Sense, Act: Learning Non-Markovian Active Perception Strategies from Large-Scale Egocentric Human Data
- arxiv url: http://arxiv.org/abs/2602.04600v1
- Date: Wed, 04 Feb 2026 14:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.171028
- Title: Act, Sense, Act: Learning Non-Markovian Active Perception Strategies from Large-Scale Egocentric Human Data
- Title(参考訳): Act, Sense, Act: 大規模人間中心データから非マルコフ的能動的知覚戦略を学習する
- Authors: Jialiang Li, Yi Qiao, Yunhan Guo, Changwen Chen, Wenzhao Lian,
- Abstract要約: 我々は、情報ゲインと意思決定分岐によって駆動される非マルコフ過程として能動的知覚を定式化する。
本稿では,認知と記憶を意識した視覚言語アクションフレームワークCoMe-VLAを紹介する。
本フレームワークは,自律的なサブタスク遷移のための認知補助ヘッドと,一貫した自己および環境意識を維持するためのデュアルトラックメモリシステムを統合する。
- 参考スコア(独自算出の注目度): 30.493131697188627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving generalizable manipulation in unconstrained environments requires the robot to proactively resolve information uncertainty, i.e., the capability of active perception. However, existing methods are often confined in limited types of sensing behaviors, restricting their applicability to complex environments. In this work, we formalize active perception as a non-Markovian process driven by information gain and decision branching, providing a structured categorization of visual active perception paradigms. Building on this perspective, we introduce CoMe-VLA, a cognitive and memory-aware vision-language-action (VLA) framework that leverages large-scale human egocentric data to learn versatile exploration and manipulation priors. Our framework integrates a cognitive auxiliary head for autonomous sub-task transitions and a dual-track memory system to maintain consistent self and environmental awareness by fusing proprioceptive and visual temporal contexts. By aligning human and robot hand-eye coordination behaviors in a unified egocentric action space, we train the model progressively in three stages. Extensive experiments on a wheel-based humanoid have demonstrated strong robustness and adaptability of our proposed method across diverse long-horizon tasks spanning multiple active perception scenarios.
- Abstract(参考訳): 制約のない環境での汎用的な操作を実現するには、ロボットは情報の不確実性、すなわちアクティブな知覚能力を積極的に解決する必要がある。
しかし、既存の手法は、複雑な環境に適用性を制限するため、限られた種類の検知行動に制限されることが多い。
本研究では、情報ゲインと意思決定分岐によって駆動される非マルコフ過程として能動的知覚を形式化し、視覚的能動的知覚パラダイムの構造的分類を提供する。
この観点から、我々は認知と記憶を意識した視覚言語アクション(VLA)フレームワークであるCoMe-VLAを紹介した。
本フレームワークは,自律型サブタスク遷移のための認知補助ヘッドとデュアルトラックメモリシステムを統合し,プロテアーゼと視覚的時間的コンテキストを融合させることにより,一貫した自己および環境意識を維持する。
統合された自我中心の行動空間において、人間とロボットの目の動きを協調させることにより、3段階でモデルを段階的に訓練する。
車輪をベースとしたヒューマノイドの大規模実験により、複数のアクティブな認識シナリオにまたがる多種多種多種多種多種多様タスクにおける提案手法の強靭性と適応性を実証した。
関連論文リスト
- Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。
強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2025-05-18T07:33:31Z) - Neural Brain: A Neuroscience-inspired Framework for Embodied Agents [78.61382193420914]
大規模な言語モデルのような現在のAIシステムは、いまだに解体され続けており、物理的に世界と関わりが持てない。
この課題の核心は、人間のような適応性を持つエンボディエージェントを駆動するために設計された中枢知能システムであるNeural Brain(ニューラル・ブレイン)の概念である。
本稿では,2つの基本的な課題に対処する,エンボディエージェントのニューラルブレインの統一的枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-12T15:05:34Z) - Siamese Network with Dual Attention for EEG-Driven Social Learning: Bridging the Human-Robot Gap in Long-Tail Autonomous Driving [0.0]
本研究では脳波信号の分類を行う脳-コンピュータインタフェース(BCI)フレームワークを提案する。
タイムリーかつモチベーションの高いコロボティックエンジニアリングアプリケーションとして、準自律ロボット運転における危険事象を警告するために、人間とループのシナリオをシミュレートする。
本稿では,脳波を符号化した信号表現を生成するために,ダイナミック・タイム・ワーピング・バリーセンタ平均化手法と組み合わせた二重アテンション・シームズ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T15:06:17Z) - Dynamic planning in hierarchical active inference [0.0]
人間の脳が認知決定に関連する運動軌跡を推論し、導入する能力について述べる。
本研究では,アクティブ推論における動的計画の話題に焦点を当てた。
論文 参考訳(メタデータ) (2024-02-18T17:32:53Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。