論文の概要: DPR-CAE: Capsule Autoencoder with Dynamic Part Representation for Image
Parsing
- arxiv url: http://arxiv.org/abs/2104.14735v1
- Date: Fri, 30 Apr 2021 03:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:42:00.634981
- Title: DPR-CAE: Capsule Autoencoder with Dynamic Part Representation for Image
Parsing
- Title(参考訳): DPR-CAE:画像解析のための動的部分表現付きカプセルオートエンコーダ
- Authors: Canqun Xiang and Zhennan Wang and Wenbin Zou and Chen Xu
- Abstract要約: DPR-CAEは、入力をポーズ、強度、動的ベクトルを含む部分カプセルのセットに解析する。
不確実なシーンと部分の関係を直接学習するのを避けるために,余分な翻訳不変モジュールを提案する。
実験の結果,教師なしオブジェクトの分類により性能が著しく向上した。
- 参考スコア(独自算出の注目度): 25.876734903099113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parsing an image into a hierarchy of objects, parts, and relations is
important and also challenging in many computer vision tasks. This paper
proposes a simple and effective capsule autoencoder to address this issue,
called DPR-CAE. In our approach, the encoder parses the input into a set of
part capsules, including pose, intensity, and dynamic vector. The decoder
introduces a novel dynamic part representation (DPR) by combining the dynamic
vector and a shared template bank. These part representations are then
regulated by corresponding capsules to composite the final output in an
interpretable way. Besides, an extra translation-invariant module is proposed
to avoid directly learning the uncertain scene-part relationship in our
DPR-CAE, which makes the resulting method achieves a promising performance gain
on $rm$-MNIST and $rm$-Fashion-MNIST. % to model the scene-object relationship
DPR-CAE can be easily combined with the existing stacked capsule autoencoder
and experimental results show it significantly improves performance in terms of
unsupervised object classification. Our code is available in the Appendix.
- Abstract(参考訳): イメージをオブジェクト、部品、関係の階層にパースすることは重要であり、多くのコンピュータビジョンタスクでは困難である。
本稿では,DPR-CAEと呼ばれる,単純で効率的なカプセルオートエンコーダを提案する。
私たちのアプローチでは、エンコーダは入力をポーズ、強度、動的ベクトルを含む一連の部分カプセルに解析します。
デコーダは、動的ベクトルと共有テンプレートバンクを組み合わせることで、新しい動的部分表現(DPR)を導入する。
これらの部分表現は対応するカプセルによって制御され、最終出力を解釈可能な方法で合成する。
さらに,dpr-caeにおける不確定なシーン・パート関係を直接学習することを避けるために,追加の翻訳不変モジュールを提案し,rm$-mnist と $rm$-fashion-mnist で有望な性能向上を実現する。
%) であり, 既存のスタックカプセルオートエンコーダと容易に組み合わせることができ, 教師なしオブジェクト分類による性能向上が実証された。
私たちのコードはAppendixで利用可能です。
関連論文リスト
- DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding [18.312501339046296]
我々は,繰り返しフレームと応答不関連フレームの両方で冗長が生じ,対応するフレームは異なる質問によって異なることを観察する。
このことは、詳細なビデオ情報保存とトークン予算削減のバランスをとるためにダイナミックエンコーディングを採用する可能性を示唆している。
論文 参考訳(メタデータ) (2024-11-19T09:16:54Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。
ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。
下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - Hierarchical Variational Autoencoder for Visual Counterfactuals [79.86967775454316]
条件変量オート(VAE)は、説明可能な人工知能(XAI)ツールとして注目されている。
本稿では, 後部の効果がいかに緩和され, 対物的効果が成功するかを示す。
本稿では,アプリケーション内の分類器を視覚的に監査できる階層型VAEについて紹介する。
論文 参考訳(メタデータ) (2021-02-01T14:07:11Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - DAM: Deliberation, Abandon and Memory Networks for Generating Detailed
and Non-repetitive Responses in Visual Dialogue [29.330198609132207]
高品質な応答を生成するための新しい生成復号アーキテクチャを提案する。
このアーキテクチャでは、単語生成は一連の注意に基づく情報選択ステップに分解される。
応答は、意味的正確性を維持しながら、より詳細で反復的でない記述を含む。
論文 参考訳(メタデータ) (2020-07-07T09:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。