論文の概要: Variable Length Embeddings
- arxiv url: http://arxiv.org/abs/2305.09967v1
- Date: Wed, 17 May 2023 05:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:23:53.609679
- Title: Variable Length Embeddings
- Title(参考訳): 可変長埋め込み
- Authors: Johnathan Chiu, Andi Gu, Matt Zhou
- Abstract要約: 我々は、新しいディープラーニングアーキテクチャ、可変長埋め込み(VLE)を導入する。
概念実証として、再構成と画像分解を含むタスクにおけるVLEの能力を実証する。
VLEは,10分の1未満のパラメータを用いて,VAEに匹敵する再現結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce a novel deep learning architecture, Variable
Length Embeddings (VLEs), an autoregressive model that can produce a latent
representation composed of an arbitrary number of tokens. As a proof of
concept, we demonstrate the capabilities of VLEs on tasks that involve
reconstruction and image decomposition. We evaluate our experiments on a mix of
the iNaturalist and ImageNet datasets and find that VLEs achieve comparable
reconstruction results to a state of the art VAE, using less than a tenth of
the parameters.
- Abstract(参考訳): 本稿では,任意の数のトークンからなる潜在表現を生成可能な自己回帰モデルである,新しいディープラーニングアーキテクチャである可変長埋め込み(VLE)を紹介する。
概念実証として、再構成と画像分解を含むタスクにおけるVLEの能力を実証する。
我々は、iNaturalistとImageNetのデータセットを混合した実験を行い、VLEが10分の1のパラメータを用いて、アートVAEの状態に匹敵する再構成結果が得られることを示した。
関連論文リスト
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - MA-NeRF: Motion-Assisted Neural Radiance Fields for Face Synthesis from
Sparse Images [21.811067296567252]
本研究では,高忠実度乾燥可能な顔アバターを再構成し,目に見えない表情を処理できる新しいフレームワークを提案する。
実装の核となるのは、構造化変位特徴と意味認識学習モジュールです。
我々の手法は現在の最先端技術よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2023-06-17T13:49:56Z) - Revisiting Image Reconstruction for Semi-supervised Semantic
Segmentation [16.27277238968567]
画像再構成を補助課題として利用し、半教師付きセマンティックセグメンテーションフレームワークに組み込むという考え方を再考する。
驚くことに、このような半教師付き学習の古いアイデアは、最先端のセマンティックセグメンテーションアルゴリズムと競合する結果をもたらす。
論文 参考訳(メタデータ) (2023-03-17T06:31:06Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Improving VAE-based Representation Learning [26.47244578124654]
優れた表現にはどのような特性が必要か,また異なるVAE構造選択が学習特性に与える影響について検討する。
ローカルな特徴を学習するデコーダを使用することで、残りのグローバルな特徴を潜伏者によってうまく捉えられることを示す。
論文 参考訳(メタデータ) (2022-05-28T23:00:18Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Using latent space regression to analyze and leverage compositionality
in GANs [33.381584322411626]
GANの組成特性を理解するためのプローブとして潜在空間への回帰を研究する。
reressorとプリトレーニングされたジェネレータを組み合わせることで、強いイメージを事前に提供し、複合イメージを作成できることが分かりました。
回帰アプローチは,潜在空間での直接編集と比較して,個々の画像部分の局所的な編集を可能にする。
論文 参考訳(メタデータ) (2021-03-18T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。