論文の概要: Latent Space Translation via Semantic Alignment
- arxiv url: http://arxiv.org/abs/2311.00664v1
- Date: Wed, 1 Nov 2023 17:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 12:54:22.950217
- Title: Latent Space Translation via Semantic Alignment
- Title(参考訳): 意味的アライメントによる潜時空間翻訳
- Authors: Valentino Maiorca, Luca Moschella, Antonio Norelli, Marco Fumero,
Francesco Locatello, Emanuele Rodol\`a
- Abstract要約: 我々は、異なるニューラルモジュールから学んだ表現が、異なる事前学習されたネットワーク間でどのように変換されるかを示す。
提案手法は, 与えられた2つの潜在空間間の変換を直接推定することにより, 付加的な訓練を伴わずに, エンコーダとデコーダを効果的に縫合できる。
特に、ゼロショットテクストテキストエンコーダやビジョンデコーダ、あるいはリバーサがいかに可能かを示し、このマルチモーダル環境で驚くほど優れた分類性能が得られることを示す。
- 参考スコア(独自算出の注目度): 29.2401314068038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While different neural models often exhibit latent spaces that are alike when
exposed to semantically related data, this intrinsic similarity is not always
immediately discernible. Towards a better understanding of this phenomenon, our
work shows how representations learned from these neural modules can be
translated between different pre-trained networks via simpler transformations
than previously thought. An advantage of this approach is the ability to
estimate these transformations using standard, well-understood algebraic
procedures that have closed-form solutions. Our method directly estimates a
transformation between two given latent spaces, thereby enabling effective
stitching of encoders and decoders without additional training. We extensively
validate the adaptability of this translation procedure in different
experimental settings: across various trainings, domains, architectures (e.g.,
ResNet, CNN, ViT), and in multiple downstream tasks (classification,
reconstruction). Notably, we show how it is possible to zero-shot stitch text
encoders and vision decoders, or vice-versa, yielding surprisingly good
classification performance in this multimodal setting.
- Abstract(参考訳): 異なるニューラルモデルはしばしば、意味的に関連したデータに露出すると類似する潜在空間を示すが、この本質的な類似性は必ずしもすぐには識別できない。
この現象をよりよく理解するために,本研究は,従来考えられていたよりも単純な変換によって,これらの神経モジュールから学習された表現が,異なる事前学習されたネットワーク間でどのように変換されるかを示す。
このアプローチの利点は、閉形式解を持つ標準的なよく理解された代数的手続きを用いてこれらの変換を推定できることである。
提案手法では,与えられた2つの潜在空間間の変換を直接推定し,追加のトレーニングをすることなく,エンコーダとデコーダを効果的に縫い合わせることができる。
様々なトレーニング、ドメイン、アーキテクチャ(ResNet、CNN、ViTなど)、複数の下流タスク(分類、再構築)において、この翻訳手順の適応性を検証する。
特に,ゼロショットステッチテキストエンコーダや視覚デコーダ,あるいはその逆も可能であり,このマルチモーダル設定において驚くほど優れた分類性能が得られることを示す。
関連論文リスト
- From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Object Representations as Fixed Points: Training Iterative Refinement
Algorithms with Implicit Differentiation [88.14365009076907]
反復的洗練は表現学習に有用なパラダイムである。
トレーニングの安定性とトラクタビリティを向上させる暗黙の差別化アプローチを開発する。
論文 参考訳(メタデータ) (2022-07-02T10:00:35Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Training or Architecture? How to Incorporate Invariance in Neural
Networks [14.162739081163444]
本稿では,グループ行動に関して,ネットワークアーキテクチャを確実に不変化する手法を提案する。
簡単に言えば、実際のネットワークにデータを送る前に、可能なトランスフォーメーションを“無効化”するつもりです。
このような手法の特性を解析し、等変ネットワークに拡張し、その利点を頑健さと計算効率の両面からいくつかの数値例で示す。
論文 参考訳(メタデータ) (2021-06-18T10:31:00Z) - Self-supervised Augmentation Consistency for Adapting Semantic
Segmentation [56.91850268635183]
本稿では,実用的かつ高精度な意味セグメンテーションのためのドメイン適応手法を提案する。
私たちは標準データ拡張技術である$-$フォトメトリックノイズ、フリップとスケーリング$-$を採用し、セマンティック予測の一貫性を保証する。
適応後の最先端セグメンテーション精度を大幅に改善し、バックボーンアーキテクチャと適応シナリオの異なる選択に整合性を持たせる。
論文 参考訳(メタデータ) (2021-04-30T21:32:40Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Learning Translation Invariance in CNNs [1.52292571922932]
CNNが翻訳に'アーキテクチャ的に不変'ではないとしても、実際に'学習'は翻訳に不変であることを示す。
本研究では,この事前学習が内部ネットワーク表現に与える影響について検討した。
これらの実験は、適切な「遅延」特性を持つ環境でネットワークを事前学習することで、ネットワークが深い知覚規則を学習できることを示す。
論文 参考訳(メタデータ) (2020-11-06T09:39:27Z) - Improving Transformation Invariance in Contrastive Representation
Learning [31.223892428863238]
本稿では、新しい正規化器を用いて変換下で表現がどのように変化するかを制御するコントラスト学習のための学習目標を提案する。
第二に、元の入力の複数の変換からのエンコーディングを結合した機能平均化アプローチを導入することにより、テスト時間表現の生成方法を変更することを提案する。
第三に、複数の下流タスクを持つ微分可能生成プロセスの文脈において、私たちのアイデアを探求するために、新しいSpirographデータセットを導入します。
論文 参考訳(メタデータ) (2020-10-19T13:49:29Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。