論文の概要: Testing GLOM's ability to infer wholes from ambiguous parts
- arxiv url: http://arxiv.org/abs/2211.16564v1
- Date: Tue, 29 Nov 2022 19:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:04:28.186796
- Title: Testing GLOM's ability to infer wholes from ambiguous parts
- Title(参考訳): GLOMの曖昧な部分から全体を予測する能力の検討
- Authors: Laura Culp, Sara Sabour, Geoffrey E. Hinton
- Abstract要約: GLOMは、イメージを全体と部分の階層に解析するためのリカレントニューラルネットワークである。
本研究では,GLOMの高度に単純化されたバージョンについて述べる。
以上の結果から,GLOMでは,同じ物体が占めるすべての位置に対して,非常によく似た埋め込みベクトルの島を形成できることがわかった。
- 参考スコア(独自算出の注目度): 26.10470075814367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The GLOM architecture proposed by Hinton [2021] is a recurrent neural network
for parsing an image into a hierarchy of wholes and parts. When a part is
ambiguous, GLOM assumes that the ambiguity can be resolved by allowing the part
to make multi-modal predictions for the pose and identity of the whole to which
it belongs and then using attention to similar predictions coming from other
possibly ambiguous parts to settle on a common mode that is predicted by
several different parts. In this study, we describe a highly simplified version
of GLOM that allows us to assess the effectiveness of this way of dealing with
ambiguity. Our results show that, with supervised training, GLOM is able to
successfully form islands of very similar embedding vectors for all of the
locations occupied by the same object and it is also robust to strong noise
injections in the input and to out-of-distribution input transformations.
- Abstract(参考訳): Hinton [2021]によって提案されたGLOMアーキテクチャは、イメージを全体と部分の階層にパースするためのリカレントニューラルネットワークである。
ある部分が曖昧である場合、グロムは、その部品が属する全体のポーズと同一性についてマルチモーダルな予測を行い、他の潜在的に曖昧な部分から来る同様の予測に注意を払い、複数の異なる部分によって予測される共通モードに落ち着かせることで、曖昧さを解消できると仮定する。
本研究では, このあいまいさに対する対処法の有効性を評価するために, 高度に単純化された glom 版について述べる。
以上の結果から,GLOMは同一物体が占めるすべての位置に対して,非常に類似した埋め込みベクトルの島体を形成することができ,入力の強いノイズ注入や分布外入力変換にも頑健であることが示唆された。
関連論文リスト
- Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Equivariant Transduction through Invariant Alignment [71.45263447328374]
グループ内ハードアライメント機構を組み込んだ,新しいグループ同変アーキテクチャを提案する。
我々のネットワーク構造は、既存のグループ同変アプローチよりも強い同変特性を発達させることができる。
また、SCANタスクにおいて、従来のグループ同変ネットワークよりも経験的に優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-22T11:19:45Z) - SSA: Semantic Structure Aware Inference for Weakly Pixel-Wise Dense
Predictions without Cost [36.27226683586425]
The semantic structure aware inference (SSA) was proposed to explore the semantic structure information hidden in different stage of the CNN-based network to generate high-quality CAM in the model inference。
提案手法はパラメータを含まない利点があり,訓練は不要である。したがって,弱教師付き画素ワイド予測タスクにも適用可能である。
論文 参考訳(メタデータ) (2021-11-05T11:07:21Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - Learning structure-aware semantic segmentation with image-level
supervision [36.40302533324508]
CAMにおける失われた構造情報は、下流セマンティックセマンティックセグメンテーションにおけるその応用を制限すると論じる。
劣化予測をペナルティ化する補助意味境界検出モジュールを紹介します。
PASCAL-VOCデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-15T03:33:20Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。