論文の概要: Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition
- arxiv url: http://arxiv.org/abs/2603.13904v1
- Date: Sat, 14 Mar 2026 11:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.478319
- Title: Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition
- Title(参考訳): ワントーケンにおけるピクセルレベルのシーン理解:視覚状態には何が必要か
- Authors: Seokmin Lee, Yunghee Lee, Byeonghyun Pak, Byeongju Woo,
- Abstract要約: 実効的な視覚状態は、シーン要素とその空間的位置のセマンティックなアイデンティティを共同で符号化することで、どこにでも捉えなければならない、と我々は主張する。
我々は,グローバル・ローカルな再構築目標に基づく視覚状態表現学習フレームワークであるCroBoを提案する。
我々はCroBoを多種多様な視覚に基づくロボットポリシー学習ベンチマークで評価し、最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 4.549831511476248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For robotic agents operating in dynamic environments, learning visual state representations from streaming video observations is essential for sequential decision making. Recent self-supervised learning methods have shown strong transferability across vision tasks, but they do not explicitly address what a good visual state should encode. We argue that effective visual states must capture what-is-where by jointly encoding the semantic identities of scene elements and their spatial locations, enabling reliable detection of subtle dynamics across observations. To this end, we propose CroBo, a visual state representation learning framework based on a global-to-local reconstruction objective. Given a reference observation compressed into a compact bottleneck token, CroBo learns to reconstruct heavily masked patches in a local target crop from sparse visible cues, using the global bottleneck token as context. This learning objective encourages the bottleneck token to encode a fine-grained representation of scene-wide semantic entities, including their identities, spatial locations, and configurations. As a result, the learned visual states reveal how scene elements move and interact over time, supporting sequential decision making. We evaluate CroBo on diverse vision-based robot policy learning benchmarks, where it achieves state-of-the-art performance. Reconstruction analyses and perceptual straightness experiments further show that the learned representations preserve pixel-level scene composition and encode what-moves-where across observations.
- Abstract(参考訳): ダイナミックな環境で動作しているロボットエージェントにとって、ストリーミングビデオ観察から視覚状態の表現を学ぶことは、シーケンシャルな意思決定に不可欠である。
近年の自己教師あり学習手法は視覚タスク間で強い伝達性を示しているが、良い視覚状態をコード化すべきかどうかを明確に示していない。
実効的な視覚状態は、シーン要素とその空間的位置のセマンティックなアイデンティティを共同で符号化することで、観察全体にわたって微妙なダイナミクスを確実に検出しなくてはならない、と我々は主張する。
そこで本稿では,グローバル・ローカルな再構築目標に基づく視覚状態表現学習フレームワークであるCroBoを提案する。
コンパクトなボトルネックトークンに圧縮された参照観察を前提として、CroBoは、グローバルなボトルネックトークンをコンテキストとして、ローカルターゲットの作物に密集したパッチを、希少な可視的キューから再構築することを学ぶ。
この学習目的は、ボトルネックトークンが、そのアイデンティティ、空間的位置、構成を含む、シーン全体のセマンティックエンティティのきめ細かい表現を符号化することを奨励する。
その結果、学習された視覚状態は、シーン要素が時間とともにどのように動き、相互作用するかを明らかにし、シーケンシャルな意思決定をサポートする。
我々はCroBoを多種多様な視覚に基づくロボットポリシー学習ベンチマークで評価し、最先端のパフォーマンスを達成した。
再構成解析と知覚的直線性実験により、学習された表現は画素レベルのシーン構成を保持し、観察の至る所で何が動くかを符号化することを示した。
関連論文リスト
- Object Concepts Emerge from Motion [24.73461163778215]
教師なしの方法でオブジェクト中心の視覚表現を学習するための生物学的にインスパイアされたフレームワークを提案する。
我々の重要な洞察は、運動境界がオブジェクトレベルのグルーピングの強いシグナルとなることである。
我々のフレームワークは完全にラベルフリーで、カメラキャリブレーションに頼らず、大規模な非構造化ビデオデータにスケーラブルである。
論文 参考訳(メタデータ) (2025-05-27T18:09:02Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Learning with a Mole: Transferable latent spatial representations for
navigation without reconstruction [12.845774297648736]
ほとんどのエンドツーエンドの学習アプローチでは、表現は潜伏しており、通常は明確に定義された解釈を持っていない。
本研究では,目的とする下流タスクとは無関係にシーンの動作可能な表現を学習することを提案する。
学習された表現は、進路から分岐する複数の短いエピソードをナビゲートするように訓練された盲人補助エージェントによって最適化される。
論文 参考訳(メタデータ) (2023-06-06T16:51:43Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。