論文の概要: Retriever: Learning Content-Style Representation as a Token-Level
Bipartite Graph
- arxiv url: http://arxiv.org/abs/2202.12307v1
- Date: Thu, 24 Feb 2022 19:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 14:16:05.110464
- Title: Retriever: Learning Content-Style Representation as a Token-Level
Bipartite Graph
- Title(参考訳): Retriever:Token-Level Bipartite Graphとしてのコンテンツスタイル表現の学習
- Authors: Dacheng Yin, Xuanchi Ren, Chong Luo, Yuwang Wang, Zhiwei Xiong, Wenjun
Zeng
- Abstract要約: Retrieverという名前の、教師なしのフレームワークは、そのような表現を学ぶために提案されている。
モーダルに依存しないため、提案したRetrieverは音声領域と画像領域の両方で評価される。
- 参考スコア(独自算出の注目度): 89.52990975155579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the unsupervised learning of content-style decomposed
representation. We first give a definition of style and then model the
content-style representation as a token-level bipartite graph. An unsupervised
framework, named Retriever, is proposed to learn such representations. First, a
cross-attention module is employed to retrieve permutation invariant (P.I.)
information, defined as style, from the input data. Second, a vector
quantization (VQ) module is used, together with man-induced constraints, to
produce interpretable content tokens. Last, an innovative link attention module
serves as the decoder to reconstruct data from the decomposed content and
style, with the help of the linking keys. Being modal-agnostic, the proposed
Retriever is evaluated in both speech and image domains. The state-of-the-art
zero-shot voice conversion performance confirms the disentangling ability of
our framework. Top performance is also achieved in the part discovery task for
images, verifying the interpretability of our representation. In addition, the
vivid part-based style transfer quality demonstrates the potential of Retriever
to support various fascinating generative tasks. Project page at
https://ydcustc.github.io/retriever-demo/.
- Abstract(参考訳): 本稿では,コンテンツ型分解表現の教師なし学習について述べる。
まずスタイルを定義し、次にコンテンツスタイルの表現をトークンレベルの二部グラフとしてモデル化します。
Retrieverという名前の教師なしフレームワークは、そのような表現を学ぶために提案されている。
まず、入力データからスタイルとして定義された置換不変情報(p.i.)を取得するためにクロスアテンションモジュールを用いる。
第二に、ベクトル量子化(VQ)モジュールが人間の制約とともに使われ、解釈可能なコンテンツトークンを生成する。
最後に、革新的なリンクアテンションモジュールは、リンクキーの助けを借りて、分解されたコンテンツとスタイルからデータを再構築するデコーダとして機能する。
モーダル非依存であるため、提案する検索器は音声領域と画像領域の両方で評価される。
最先端のゼロショット音声変換性能は、我々のフレームワークの切り離し能力を確認する。
トップパフォーマンスは、画像の部分発見タスクでも達成され、表現の解釈可能性を検証する。
さらに、鮮やかな部分ベースのスタイル転送品質は、さまざまな魅力的な生成タスクをサポートするレトリバーの可能性を示しています。
プロジェクトページ: https://ydcustc.github.io/retriever-demo/
関連論文リスト
- Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Improving Continuous Sign Language Recognition with Consistency
Constraints and Signer Removal [24.537234147678113]
CSLRバックボーンを強化するために,3つの補助タスクを提案する。
視覚モジュールを強制するために、キーポイント誘導空間アテンションモジュールを開発する。
視覚モジュールとシーケンシャルモジュールの間には、文埋め込み一貫性制約が課される。
本モデルでは,5つのベンチマークで最先端または競争性能を実現する。
論文 参考訳(メタデータ) (2022-12-26T06:38:34Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Partitioning Image Representation in Contrastive Learning [0.0]
コントラスト学習において,アンカーの共通および特異な特徴と正のサンプルの両方を学習できる新しい表現,分割表現を導入する。
本稿では,VAEフレームワーク内の2種類の情報を分離し,従来のBYOLを線形分離性で上回り,下流タスクとして数ショットの学習タスクを実現できることを示す。
論文 参考訳(メタデータ) (2022-03-20T04:55:39Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。