論文の概要: Learning Invariant World State Representations with Predictive Coding
- arxiv url: http://arxiv.org/abs/2207.02972v1
- Date: Wed, 6 Jul 2022 21:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 12:54:24.493475
- Title: Learning Invariant World State Representations with Predictive Coding
- Title(参考訳): 予測符号化による不変世界状態表現の学習
- Authors: Avi Ziskind, Sujeong Kim, and Giedrius T. Burachas
- Abstract要約: 我々は,新しい予測型コーディングベースアーキテクチャと,完全教師付き・自己教師型学習手法を開発した。
我々は,新しい合成データセットを用いて,モデルのロバスト性を評価する。
- 参考スコア(独自算出の注目度): 1.8963850600275547
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised learning methods overcome the key bottleneck for building
more capable AI: limited availability of labeled data. However, one of the
drawbacks of self-supervised architectures is that the representations that
they learn are implicit and it is hard to extract meaningful information about
the encoded world states, such as 3D structure of the visual scene encoded in a
depth map. Moreover, in the visual domain such representations only rarely
undergo evaluations that may be critical for downstream tasks, such as vision
for autonomous cars. Herein, we propose a framework for evaluating visual
representations for illumination invariance in the context of depth perception.
We develop a new predictive coding-based architecture and a hybrid
fully-supervised/self-supervised learning method. We propose a novel
architecture that extends the predictive coding approach: PRedictive Lateral
bottom-Up and top-Down Encoder-decoder Network (PreludeNet), which explicitly
learns to infer and predict depth from video frames. In PreludeNet, the
encoder's stack of predictive coding layers is trained in a self-supervised
manner, while the predictive decoder is trained in a supervised manner to infer
or predict the depth. We evaluate the robustness of our model on a new
synthetic dataset, in which lighting conditions (such as overall illumination,
and effect of shadows) can be be parametrically adjusted while keeping all
other aspects of the world constant. PreludeNet achieves both competitive depth
inference performance and next frame prediction accuracy. We also show how this
new network architecture, coupled with the hybrid
fully-supervised/self-supervised learning method, achieves balance between the
said performance and invariance to changes in lighting. The proposed framework
for evaluating visual representations can be extended to diverse task domains
and invariance tests.
- Abstract(参考訳): 自己教師付き学習手法は、ラベル付きデータの限られた可用性という、より有能なAIを構築する上で重要なボトルネックを克服する。
しかし、自己教師付きアーキテクチャの欠点の1つは、彼らが学習する表現が暗黙的であり、深度マップでエンコードされた視覚シーンの3d構造など、エンコードされた世界状態に関する意味のある情報を抽出するのは難しいことである。
さらに、視覚領域では、このような表現は、自動運転車のビジョンのような下流作業に不可欠な評価を受けることは滅多にない。
本稿では,奥行き知覚の文脈における照明不変性に対する視覚表現の評価手法を提案する。
我々は,新しい予測型コーディングベースアーキテクチャと,完全教師付き/自己教師付き学習手法を開発した。
Predictive Lateral bottom-Up と Top-Down Encoder-decoder Network (PreludeNet) は、ビデオフレームから奥行きを推測し予測することを明示的に学習するアーキテクチャである。
preludenetでは、エンコーダのスタックである予測符号化層は自己教師方式で訓練され、予測デコーダは教師方式で訓練され、深さを推測または予測する。
我々は,光条件(全体照明や影の効果など)を,世界の他の側面を一定に保ちながらパラメトリックに調整できるような,新しい合成データセット上でのモデルのロバスト性を評価する。
PreludeNetは競合深度推定性能と次のフレーム予測精度の両方を達成する。
また,この新しいネットワークアーキテクチャと,ハイブリッドな完全教師付き・自己教師型学習手法が組み合わさって,その性能と照明変化の相違を両立させることを示す。
視覚的表現を評価するためのフレームワークは、様々なタスクドメインと不変テストに拡張できる。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - Towards Disentangling Information Paths with Coded ResNeXt [11.884259630414515]
ネットワーク全体の機能の透明性を高めるために,我々は新しいアプローチを採っている。
分類のためのニューラルネットワークアーキテクチャを提案し、各クラスに関連する情報が特定の経路を流れる。
論文 参考訳(メタデータ) (2022-02-10T21:45:49Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Learning by Distillation: A Self-Supervised Learning Framework for
Optical Flow Estimation [71.76008290101214]
DistillFlowは光の流れを学ぶための知識蒸留手法である。
KITTIとSintelの両方のデータセット上で、最先端の教師なし学習性能を実現する。
我々のモデルは、KITTI 2015ベンチマークにおけるすべての単分子的手法の中で、第1位にランクされ、Sintel Finalベンチマークで発表されたすべてのメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-06-08T09:13:34Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Semantically-Guided Representation Learning for Self-Supervised
Monocular Depth [40.49380547487908]
本稿では,自己教師付き表現学習を指導するために,事前訓練型セマンティックセマンティック・セマンティクス・ネットワークを利用した新しいアーキテクチャを提案する。
本手法は,全画素,細粒度細部,意味カテゴリーごとの自己教師型単眼深度予測のための技術の現状を改善した。
論文 参考訳(メタデータ) (2020-02-27T18:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。