Fugu-MT 論文翻訳(概要): Capturing Visual Environment Structure Correlates with Control Performance

論文の概要: Capturing Visual Environment Structure Correlates with Control Performance

arxiv url: http://arxiv.org/abs/2602.04880v1
Date: Wed, 04 Feb 2026 18:59:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.1793
Title: Capturing Visual Environment Structure Correlates with Control Performance
Title（参考訳）: 視覚環境構造と制御性能の関係
Authors: Jiahua Dong, Yunze Man, Pavel Tokmakov, Yu-Xiong Wang,
Abstract要約: 既存のプロキシメトリクスは、ビジュアル世界の狭い側面をキャプチャする表現能力に重点を置いている。事前学習された視覚エンコーダが環境状態の復号化を支援するかを測定する。この推定精度は、下流の政策性能と強く相関していることを示す。
参考スコア（独自算出の注目度）: 62.69063991419694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The choice of visual representation is key to scaling generalist robot policies. However, direct evaluation via policy rollouts is expensive, even in simulation. Existing proxy metrics focus on the representation's capacity to capture narrow aspects of the visual world, like object shape, limiting generalization across environments. In this paper, we take an analytical perspective: we probe pretrained visual encoders by measuring how well they support decoding of environment state -- including geometry, object structure, and physical attributes -- from images. Leveraging simulation environments with access to ground-truth state, we show that this probing accuracy strongly correlates with downstream policy performance across diverse environments and learning settings, significantly outperforming prior metrics and enabling efficient representation selection. More broadly, our study provides insight into the representational properties that support generalizable manipulation, suggesting that learning to encode the latent physical state of the environment is a promising objective for control.
Abstract（参考訳）: 視覚表現の選択は、ジェネラリストロボットポリシーのスケーリングの鍵となる。しかし、シミュレーションにおいても、ポリシーのロールアウトによる直接的な評価は高価である。既存のプロキシメトリクスは、オブジェクトの形状や環境間の一般化の制限など、視覚世界の狭い側面をキャプチャする表現能力に重点を置いています。本稿では、画像から環境状態(幾何学、物体構造、物理的属性を含む)の復号化をいかに支援しているかを計測することにより、事前学習された視覚エンコーダを探索する。地中構造状態へのアクセスによるシミュレーション環境の活用により, この精度は, 多様な環境や学習環境における下流政策性能と強く相関し, 先行指標を著しく上回り, 効率的な表現選択を可能にすることを示す。より広範に、我々の研究は、一般化可能な操作を支援する表現特性に関する洞察を提供し、環境の潜在物理的状態を符号化する学習が制御の有望な目標であることを示唆している。

関連論文リスト

I-Perceive: A Foundation Model for Active Perception with Language Instructions [41.67607728608853]
I-Perceiveは,自然言語命令に基づく能動的知覚の基礎モデルである。 I-Perceiveは、画像ベースのシーンコンテキストに基づいて、オープンな言語命令に従うカメラビューを予測する。実験により、I-Perceiveは、生成したカメラビューの予測精度とインストラクションの両方において、最先端のVLMを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2026-02-28T11:38:56Z)
Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation [41.66477383019748]
SBOCR(Slot-Based Object-Centric Representations)は、密集した特徴を有限個のオブジェクトのような実体に分類することができる。 SBOCRは、動的で現実世界のロボット環境で効果的に一般化する視覚システムを設計するための有望な方向である。
論文参考訳（メタデータ） (2026-01-29T08:55:53Z)
Object-Centric Representations Improve Policy Generalization in Robot Manipulation [43.18545365968973]
我々は,オブジェクト中心表現(OCR)を,視覚入力を完了したエンティティの集合に分割する構造的な代替品として検討する。我々は、シミュレーションおよび実世界の操作タスクのスイート全体にわたって、視覚的エンコーダ中心、グローバル、そして密集したメソッドをベンチマークする。この結果から,OCRに基づく政策は,タスク固有の事前訓練を必要とせずに,一般化設定において,密接かつグローバルな表現よりも優れていたことが判明した。
論文参考訳（メタデータ） (2025-05-16T07:06:37Z)
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
GAN Based Top-Down View Synthesis in Reinforcement Learning Environments [0.36427222462368697]
本研究は, GAN(Generative Adversarial Network)を用いた, 人工エージェントの初対人視点観測に基づくRL環境のトップダウンビューの学習について検討する。プロジェクトの焦点は、RL環境のトップダウンビューを学ぶことです。強化学習のタスクには対処しません。
論文参考訳（メタデータ） (2024-10-16T08:44:23Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Learning Generalizable Manipulation Policies with Object-Centric 3D Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。 GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文参考訳（メタデータ） (2023-10-22T18:51:45Z)
Policy Gradient Methods in the Presence of Symmetries and State Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文参考訳（メタデータ） (2023-05-09T17:59:10Z)
SceneGen: Generative Contextual Scene Augmentation using Scene Graph Priors [3.1969855247377827]
SceneGenは、既存のシーン内の仮想オブジェクトの位置と方向を予測する、生成的コンテキスト拡張フレームワークである。 SceneGenはセグメンテーションされたシーンを入力として、仮想コンテンツを置くための位置と向きの確率マップを出力する。オブジェクト, オブジェクト群, 部屋間の明確な位相特性をカプセル化した空間的シーングラフ表現を定式化する。そこで本研究では,オブジェクトをリアルタイムに拡張可能な拡張現実アプリケーションを開発した。
論文参考訳（メタデータ） (2020-09-25T18:36:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。