論文の概要: Active Visual Perception: Opportunities and Challenges
- arxiv url: http://arxiv.org/abs/2512.03687v1
- Date: Wed, 03 Dec 2025 11:27:37 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:01:42.967611
- Title: Active Visual Perception: Opportunities and Challenges
- Title(参考訳): アクティブ・ビジュアル・パーセプション - 機会と課題
- Authors: Yian Li, Xiaoyu Guo, Hao Zhang, Shuiwang Li, Xiaowei Dai,
- Abstract要約: 本稿では,アクティブな視覚知覚に固有の機会と課題について考察する。
それは、その可能性、現在の研究、そしてより広範な採用のために克服されなければならない障害について、包括的な概要を提供する。
- 参考スコア(独自算出の注目度): 12.914464199946922
- License:
- Abstract: Active visual perception refers to the ability of a system to dynamically engage with its environment through sensing and action, allowing it to modify its behavior in response to specific goals or uncertainties. Unlike passive systems that rely solely on visual data, active visual perception systems can direct attention, move sensors, or interact with objects to acquire more informative data. This approach is particularly powerful in complex environments where static sensing methods may not provide sufficient information. Active visual perception plays a critical role in numerous applications, including robotics, autonomous vehicles, human-computer interaction, and surveillance systems. However, despite its significant promise, there are several challenges that need to be addressed, including real-time processing of complex visual data, decision-making in dynamic environments, and integrating multimodal sensory inputs. This paper explores both the opportunities and challenges inherent in active visual perception, providing a comprehensive overview of its potential, current research, and the obstacles that must be overcome for broader adoption.
- Abstract(参考訳): アクティブ・ヴィジュアル・インセプション(英: Active visual perception)とは、特定の目標や不確実性に応じて環境を動的に変化させる能力である。
視覚データのみに依存する受動的システムとは異なり、アクティブな視覚認識システムは注意を向けたり、センサーを動かしたり、オブジェクトと対話したりすることで、より情報的なデータを取得することができる。
静的センシング手法が十分な情報を提供しない複雑な環境では、このアプローチは特に強力である。
アクティブな視覚知覚は、ロボット工学、自動運転車、人間とコンピュータのインタラクション、監視システムなど、多くの応用において重要な役割を果たしている。
しかし、その大きな約束にもかかわらず、複雑な視覚データのリアルタイム処理、動的環境における意思決定、マルチモーダル感覚入力の統合など、対処すべき課題がいくつかある。
本稿では、アクティブな視覚知覚に固有の機会と課題の両方を探求し、その可能性、現在の研究、そして広く普及するために克服すべき障害について包括的に概観する。
関連論文リスト
- Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception [8.542874528320004]
既存のビジョンモデルと固定RGB-Dカメラシステムは、細かな詳細取得で広域範囲を調整できない。
本研究では,アクティブな視覚知覚のためのロボット眼球であるEyeVLAを提案する。
論文 参考訳(メタデータ) (2025-11-19T09:42:08Z) - Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。
強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2025-05-18T07:33:31Z) - CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph [12.54884302440877]
モバイル探索は、ロボット工学における長年の課題である。
アクティブな相互作用による既存のロボット探査アプローチは、しばしばテーブルトップシーンに制限される。
本稿では,多種多様なオブジェクト関係を符号化し,活発な相互作用による探索を可能にする3Dリレーショナルオブジェクトグラフを提案する。
論文 参考訳(メタデータ) (2025-01-23T02:39:04Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Floor extraction and door detection for visually impaired guidance [78.94595951597344]
未知の環境で障害物のない経路を見つけることは、視覚障害者や自律ロボットにとって大きなナビゲーション問題である。
コンピュータビジョンシステムに基づく新しいデバイスは、障害のある人が安全な環境で未知の環境でナビゲートすることの難しさを克服するのに役立つ。
本研究では,視覚障害者のためのナビゲーションシステムの構築につながるセンサとアルゴリズムの組み合わせを提案する。
論文 参考訳(メタデータ) (2024-01-30T14:38:43Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Learning Intuitive Physics with Multimodal Generative Models [24.342994226226786]
本稿では,視覚と触覚のフィードバックを融合させ,動的シーンにおける物体の動きを予測する枠組みを提案する。
我々は、接触面の高解像度マルチモーダルセンシングを提供する新しいSee-Through-your-Skin(STS)センサを使用します。
物体の静止状態を所定の初期条件から予測するシミュレーションおよび実世界の実験を通じて検証する。
論文 参考訳(メタデータ) (2021-01-12T12:55:53Z) - Road obstacles positional and dynamic features extraction combining
object detection, stereo disparity maps and optical flow data [0.0]
ナビゲーション目的の視覚認識システムが障害を特定することは重要である。
本稿では,障害物の同定とクラス,位置,深さ,動き情報の抽出について述べる。
論文 参考訳(メタデータ) (2020-06-24T19:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。