論文の概要: See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent
- arxiv url: http://arxiv.org/abs/2602.23806v1
- Date: Fri, 27 Feb 2026 08:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.332347
- Title: See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent
- Title(参考訳): パーソナライズされたVLM誘導エージェントによる教師なしクロスドメイン視覚適応の能動的知覚
- Authors: Tianci Tang, Tielong Cai, Hongwei Wang, Gaoang Wang,
- Abstract要約: そこで我々はSea$2$(See, Act, Adapt)によるパラダイムシフトを提案し,モジュールのデプロイ方法に適応する。
Sea$2$は、すべての知覚モジュールを凍結させ、トレーニング中に下流ラベルを必要としない。
視覚的グラウンド、セグメンテーション、および3Dボックス推定を含む3つの視覚的知覚タスクの実験を行い、それぞれ13.54%、15.92%、27.68%の性能改善を行った。
- 参考スコア(独自算出の注目度): 23.757425727597067
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained perception models excel in generic image domains but degrade significantly in novel environments like indoor scenes. The conventional remedy is fine-tuning on downstream data which incurs catastrophic forgetting of prior knowledge and demands costly, scene-specific annotations. We propose a paradigm shift through Sea$^2$ (See, Act, Adapt): rather than adapting the perception modules themselves, we adapt how they are deployed through an intelligent pose-control agent. Sea$^2$ keeps all perception modules frozen, requiring no downstream labels during training, and uses only scalar perceptual feedback to navigate the agent toward informative viewpoints. Specially, we transform a vision-language model (VLM) into a low-level pose controller through a two-stage training pipeline: first fine-tuning it on rule-based exploration trajectories that systematically probe indoor scenes, and then refining the policy via unsupervised reinforcement learning that constructs rewards from the perception module's outputs and confidence. Unlike prior active perception methods that couple exploration with specific models or collect data for retraining them, Sea$^2$ directly leverages off-the-shelf perception models for various tasks without the need for retraining. We conducted experiments on three visual perception tasks, including visual grounding, segmentation and 3D box estimation, with performance improvements of 13.54%, 15.92% and 27.68% respectively on dataset ReplicaCAD.
- Abstract(参考訳): 事前学習された知覚モデルは、一般的な画像領域では優れているが、屋内シーンのような新しい環境では著しく劣化する。
従来の治療法は、先行知識の破滅的な忘れ込みを招き、コストがかかるシーン固有のアノテーションを要求する下流データに基づいて微調整を行う。
認識モジュール自体を適応させるのではなく、インテリジェントなポーズ制御エージェントによってどのように展開されるかを適用する。
Sea$^2$は、すべての知覚モジュールを凍結させ、トレーニング中に下流ラベルを必要としない。
具体的には、視覚言語モデル(VLM)を2段階の訓練パイプラインを通じて低レベルポーズ制御に変換する。まず、屋内シーンを体系的に探索するルールベースの探索トラジェクトリを微調整し、認識モジュールの出力と信頼から報酬を構成する教師なし強化学習を通じてポリシーを洗練する。
特定のモデルで探索や再トレーニングのためのデータ収集を行う従来のアクティブな認識方法とは異なり、Sea$^2$は、再トレーニングを必要とせずに、様々なタスクの既製の知覚モデルを直接活用する。
視覚的グラウンド,セグメンテーション,3次元ボックス推定の3つの視覚的認知タスクについて,データセットReplicaCADでそれぞれ13.54%,15.92%,27.68%の性能改善を行った。
関連論文リスト
- Fine-grained Image Retrieval via Dual-Vision Adaptation [38.41312409147845]
Fine-Grained Image Retrieval (FGIR)は、識別的視覚表現を学習し、類似した微細な特徴を持つ画像を検索する際の課題に直面している。
本稿では,FGIRのFGIRモデルに対するDual-Vision Adaptation (DVA)アプローチを提案する。
論文 参考訳(メタデータ) (2025-06-19T12:46:55Z) - Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry [7.067145619709089]
我々は,我々の自己教師型モデルが「鐘と笛なしで」最先端のパフォーマンスに到達できることを実証した。
全てのデータセットに対して,本手法は,特に深度予測タスクにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-16T17:24:20Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Supervising Remote Sensing Change Detection Models with 3D Surface
Semantics [1.8782750537161614]
光RGBと地上レベル(AGL)マップペアを用いた共同学習のためのコントラスト表面画像事前学習(CSIP)を提案する。
次に、これらの事前訓練されたモデルをいくつかの建物セグメンテーションおよび変更検出データセット上で評価し、実際に、下流アプリケーションに関連する特徴を抽出することを示す。
論文 参考訳(メタデータ) (2022-02-26T23:35:43Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。