論文の概要: Semantics-Guided Representation Learning with Applications to Visual
Synthesis
- arxiv url: http://arxiv.org/abs/2010.10772v1
- Date: Wed, 21 Oct 2020 05:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 00:17:00.521133
- Title: Semantics-Guided Representation Learning with Applications to Visual
Synthesis
- Title(参考訳): 意味指導型表現学習と視覚合成への応用
- Authors: Jia-Wei Yan, Ci-Siang Lin, Fu-En Yang, Yu-Jhe Li, Yu-Chiang Frank Wang
- Abstract要約: 本稿では,分布が関心のセマンティック情報と一致する潜在表現を学習する角形三重項近傍損失(ATNL)を提案する。
さらに,画像のセマンティック・ワープを生成するために球面意味論を利用して,望ましい視覚データを合成する。
- 参考スコア(独自算出の注目度): 37.29761880144014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning interpretable and interpolatable latent representations has been an
emerging research direction, allowing researchers to understand and utilize the
derived latent space for further applications such as visual synthesis or
recognition. While most existing approaches derive an interpolatable latent
space and induces smooth transition in image appearance, it is still not clear
how to observe desirable representations which would contain semantic
information of interest. In this paper, we aim to learn meaningful
representations and simultaneously perform semantic-oriented and
visually-smooth interpolation. To this end, we propose an angular
triplet-neighbor loss (ATNL) that enables learning a latent representation
whose distribution matches the semantic information of interest. With the
latent space guided by ATNL, we further utilize spherical semantic
interpolation for generating semantic warping of images, allowing synthesis of
desirable visual data. Experiments on MNIST and CMU Multi-PIE datasets
qualitatively and quantitatively verify the effectiveness of our method.
- Abstract(参考訳): 解釈可能で補間可能な潜在表現の学習は、研究者が視覚合成や認識などのさらなる応用のために導出した潜在空間を理解し、活用できる新たな研究の方向性である。
既存のほとんどのアプローチは、補間可能な潜伏空間を導き、画像の外観のスムーズな遷移を誘導するが、関心のセマンティック情報を含む望ましい表現をどのように観察するかは明らかになっていない。
本稿では,意味のある表現を学習し,セマンティック指向と視覚的にスムースな補間を同時に行うことを目的とする。
そこで本研究では,分布が興味のある意味情報と一致する潜在表現を学習する角三重項近傍損失(ATNL)を提案する。
ATNLにより導かれる潜伏空間により、我々はさらに球面意味補間を利用して画像のセマンティック・ワープを生成し、望ましい視覚データの合成を可能にする。
MNIST と CMU Multi-PIE データセットの定性的・定量的な検証実験を行った。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Visual Neural Decoding via Improved Visual-EEG Semantic Consistency [3.4061238650474657]
EEG機能をCLIP埋め込みスペースに直接マッピングするメソッドは、マッピングバイアスを導入し、セマンティックな矛盾を引き起こす可能性がある。
最適アライメントを容易にするために,これらの2つのモードのセマンティックな特徴を明示的に抽出する Visual-EEG Semantic Decouple Framework を提案する。
提案手法は,ゼロショットニューラルデコードタスクの最先端化を実現する。
論文 参考訳(メタデータ) (2024-08-13T10:16:10Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Scalable Self-Supervised Representation Learning from Spatiotemporal
Motion Trajectories for Multimodal Computer Vision [0.0]
本稿では,GPSトラジェクトリから地理的位置の表現を学習するための自己教師付きラベルなし手法を提案する。
到達可能性埋め込みは意味論的に意味のある表現であり,精度・リコール曲線(AUPRC)測定値の領域を用いて測定すると,性能が4~23%向上することを示す。
論文 参考訳(メタデータ) (2022-10-07T02:41:02Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Attentive Multi-View Deep Subspace Clustering Net [4.3386084277869505]
我々は,AMVDSN(Attentive Multi-View Deep Subspace Nets)を提案する。
提案手法は,コンセンサス情報とビュー固有情報の両方を明示的に考慮した有意な潜在表現を求める。
7つの実世界のデータセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-23T12:57:26Z) - Information Symmetry Matters: A Modal-Alternating Propagation Network
for Few-Shot Learning [118.45388912229494]
未ラベルサンプルの欠落した意味情報を補うために,モーダル代替伝搬ネットワーク (MAP-Net) を提案する。
我々は,情報伝達がより有益になるように,セマンティクスを介して視覚的関係ベクトルを誘導するリレーガイダンス(RG)戦略を設計する。
提案手法は有望な性能を達成し,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-09-03T03:43:53Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。