論文の概要: Weakly-supervised Latent Models for Task-specific Visual-Language Control
- arxiv url: http://arxiv.org/abs/2511.18319v1
- Date: Sun, 23 Nov 2025 07:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.771386
- Title: Weakly-supervised Latent Models for Task-specific Visual-Language Control
- Title(参考訳): タスク固有の視覚言語制御のための弱教師付き潜時モデル
- Authors: Xian Yeow Lee, Lasitha Vidyaratne, Gregory Sin, Ahmed Farahat, Chetan Gupta,
- Abstract要約: 本稿では,目標状態の監督のみを用いて,共有潜在空間における状態特異的な行動誘発シフトを学習するタスク固有潜在ダイナミクスモデルを提案する。
実験では、71%の成功を達成し、未知の画像や指示に一般化する。
- 参考スコア(独自算出の注目度): 2.10305808315957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous inspection in hazardous environments requires AI agents that can interpret high-level goals and execute precise control. A key capability for such agents is spatial grounding, for example when a drone must center a detected object in its camera view to enable reliable inspection. While large language models provide a natural interface for specifying goals, using them directly for visual control achieves only 58\% success in this task. We envision that equipping agents with a world model as a tool would allow them to roll out candidate actions and perform better in spatially grounded settings, but conventional world models are data and compute intensive. To address this, we propose a task-specific latent dynamics model that learns state-specific action-induced shifts in a shared latent space using only goal-state supervision. The model leverages global action embeddings and complementary training losses to stabilize learning. In experiments, our approach achieves 71\% success and generalizes to unseen images and instructions, highlighting the potential of compact, domain-specific latent dynamics models for spatial alignment in autonomous inspection.
- Abstract(参考訳): 危険環境における自律的な検査には、ハイレベルな目標を解釈し、正確な制御を実行するAIエージェントが必要である。
このようなエージェントのキーとなる機能は、例えば、ドローンが検出されたオブジェクトをカメラビューに集中させて、信頼性の高い検査を可能にする必要がある場合など、空間的な接地である。
大きな言語モデルは目標を指定するための自然なインターフェースを提供するが、視覚的制御に直接使用すると、このタスクで58倍の成功しか得られない。
エージェントをツールとして世界モデルに組み込むことで、候補アクションをロールアウトし、空間的に接地した環境でより優れたパフォーマンスを発揮できるが、従来の世界モデルはデータであり、計算集約的である。
そこで本研究では,目標状態監視のみを用いて,共有潜在空間における状態固有の行動誘発シフトを学習するタスク固有潜在ダイナミクスモデルを提案する。
このモデルは、グローバルなアクション埋め込みと補完的なトレーニング損失を活用して学習を安定させる。
実験では, 自律検査における空間的アライメントのためのコンパクトで領域固有の潜在力学モデルの可能性を強調し, 71 %の成功を達成し, 画像や指示を一般化する。
関連論文リスト
- Exploring Conditions for Diffusion models in Robotic Control [70.27711404291573]
我々は,ロボット制御のためのタスク適応型視覚表現を得るために,事前学習したテキスト・画像拡散モデルを活用することを検討する。
テキスト条件をナビゲート的に適用すると、制御タスクにおいて最小あるいは負の利得が得られることがわかった。
本稿では,制御環境に適応する学習可能なタスクプロンプトと,細粒度でフレーム固有の細部をキャプチャする視覚プロンプトを提案する。
論文 参考訳(メタデータ) (2025-10-17T10:24:14Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-06-04T03:04:54Z) - Representing Positional Information in Generative World Models for Object Manipulation [12.263162194821787]
本稿では,世界モデルに基づくエージェントがオブジェクト配置タスクを解くための汎用的アプローチを提案する。
特にLCPでは、目標仕様のためのオブジェクトの位置情報を明示的にキャプチャするオブジェクト中心の潜在表現を採用している。
提案手法は複数の操作環境にまたがって厳密に評価され,現行のモデルベース制御手法と比較して良好な性能を示した。
論文 参考訳(メタデータ) (2024-09-18T14:19:50Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。