論文の概要: Control-oriented Clustering of Visual Latent Representation
- arxiv url: http://arxiv.org/abs/2410.05063v1
- Date: Tue, 8 Oct 2024 02:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:28:18.742096
- Title: Control-oriented Clustering of Visual Latent Representation
- Title(参考訳): 視覚潜在表現の制御指向クラスタリング
- Authors: Han Qi, Haocheng Yin, Heng Yang,
- Abstract要約: ビヘイビアクローンから学習した画像ベース制御パイプラインにおける視覚表現空間の幾何学について検討する。
画像分類における神経崩壊(NC)現象に着想を得て,視覚的表現空間に類似のクラスタリング法則が出現するかどうかを検討する。
このようなクラスタリングの法則を,専門家による限定的な実証によるポリシのトレーニングにおいて,テスト時間性能を向上させるアルゴリズムツールとして活用できることを示す。
- 参考スコア(独自算出の注目度): 3.9838014203847862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate a study of the geometry of the visual representation space -- the information channel from the vision encoder to the action decoder -- in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification, we investigate whether a similar law of clustering emerges in the visual representation space. Since image-based control is a regression task without explicitly defined classes, the central piece of the puzzle lies in determining according to what implicit classes the visual features cluster, if such a law exists. Focusing on image-based planar pushing, we posit the most important role of the visual representation in a control task is to convey a goal to the action decoder. We then classify training samples of expert demonstrations into eight "control-oriented" classes based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output, where one class corresponds to one relative pose orthant (REPO). Across four different instantiations of architecture, we report the prevalent emergence of control-oriented clustering in the visual representation space according to the eight REPOs. Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35% in the low-data regime. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.
- Abstract(参考訳): 本研究では,視覚的表現空間(視覚エンコーダからアクションデコーダへの情報チャネル)の形状について,行動クローニングから学習した画像に基づく制御パイプラインで検討する。
画像分類における神経崩壊(NC)現象に着想を得て,視覚的表現空間に類似のクラスタリング法則が出現するかどうかを検討する。
イメージベース制御は、明示的に定義されたクラスを持たない回帰タスクであるため、パズルの中心部分は、そのような法則が存在する場合、どの暗黙のクラスが視覚特徴クラスタであるかを決定することである。
画像に基づく平面プッシュに着目して、制御タスクにおける視覚表現の最も重要な役割は、アクションデコーダにゴールを伝えることであると仮定する。
次に、専門家によるデモンストレーションのトレーニングサンプルを8つの「制御指向」クラスに分類する。
a) 入力又は入力における対象と対象との相対的なポーズ
b) 1つのクラスが1つの相対的なポーズオーサント(REPO)に対応する出力において、専門家のアクションによって誘導されるオブジェクトの相対的なポーズ。
アーキテクチャの4つのインスタンス化の中で,視覚表現空間における制御指向クラスタリングの出現を,8つのREPOに従って報告する。
このようなクラスタリングの法則は,経験的観察以外にも,専門家による限定的な実証によるポリシのトレーニングにおいて,テスト時間性能を向上させるアルゴリズムツールとして活用できることが示される。
特に、視覚特徴の制御指向クラスタリングを促進するために、NCを正規化として視覚エンコーダを事前訓練する。
驚いたことに、アクションデコーダでエンドツーエンドに微調整されたNCプリトレーニングされたビジョンエンコーダは、低データ方式でテストタイム性能を10%から35%向上させる。
実世界の視覚に基づく平面プッシュ実験は、制御指向の視覚表現事前学習の驚くべき利点を証明した。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Perceptual Group Tokenizer: Building Perception with Iterative Grouping [14.760204235027627]
本稿では,視覚的特徴を抽出し,自己指導型表現学習を行うためにグループ化操作に依存するパーセプチュアル・グループ・トケナイザを提案する。
提案モデルは,最先端のビジョンアーキテクチャと比較して,競争力のある計算性能を実現することができることを示す。
論文 参考訳(メタデータ) (2023-11-30T07:00:14Z) - Evaluating Robustness of Visual Representations for Object Assembly Task
Requiring Spatio-Geometrical Reasoning [8.626019848533707]
本稿では,オブジェクト・アセンブリ・タスクのコンテキストにおける視覚表現の堅牢性の評価と評価に焦点をあてる。
我々は視覚前訓練モデルを視覚エンコーダとして利用するビズモータ政策学習の一般的な枠組みを用いる。
本研究は、両腕操作装置に適用する場合、特にグリップ変動に対して、この枠組みの頑健性について検討する。
論文 参考訳(メタデータ) (2023-10-15T20:41:07Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - RAZE: Region Guided Self-Supervised Gaze Representation Learning [5.919214040221055]
RAZEは、非注釈の顔画像データを利用する地域誘導型自己教師型gAZE表現学習フレームワークである。
Ize-Netはカプセル層ベースのCNNアーキテクチャで、リッチアイ表現を効率的に捉えることができる。
論文 参考訳(メタデータ) (2022-08-04T06:23:49Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Looking Beyond Corners: Contrastive Learning of Visual Representations
for Keypoint Detection and Description Extraction [1.5749416770494706]
学習可能なキーポイント検出器とディスクリプタは、古典的な手作りの特徴抽出方法よりも優れています。
視覚表現の自己教師型学習に関する最近の研究は、深層ネットワークに基づく学習可能なモデルの性能向上を促している。
本稿では,繰り返し可能なキーポイントを検知し,識別的記述を抽出する対応ネットワーク(CorrNet)を提案する。
論文 参考訳(メタデータ) (2021-12-22T16:27:11Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。