論文の概要: Vec2Vec: A Compact Neural Network Approach for Transforming Text
Embeddings with High Fidelity
- arxiv url: http://arxiv.org/abs/2306.12689v1
- Date: Thu, 22 Jun 2023 06:23:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:16:32.398032
- Title: Vec2Vec: A Compact Neural Network Approach for Transforming Text
Embeddings with High Fidelity
- Title(参考訳): Vec2Vec: 高忠実度テキスト埋め込み変換のためのコンパクトニューラルネットワークアプローチ
- Authors: Andrew Kean Gao
- Abstract要約: 我々は、オープンソースの768次元MPNet埋め込みをテキストアダ埋め込みに変換するために、単純なニューラルネットワークを訓練した。
私たちのモデルであるVec2Vecは軽量(80MB)で高速です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vector embeddings have become ubiquitous tools for many language-related
tasks. A leading embedding model is OpenAI's text-ada-002 which can embed
approximately 6,000 words into a 1,536-dimensional vector. While powerful,
text-ada-002 is not open source and is only available via API. We trained a
simple neural network to convert open-source 768-dimensional MPNet embeddings
into text-ada-002 embeddings. We compiled a subset of 50,000 online food
reviews. We calculated MPNet and text-ada-002 embeddings for each review and
trained a simple neural network to for 75 epochs. The neural network was
designed to predict the corresponding text-ada-002 embedding for a given MPNET
embedding. Our model achieved an average cosine similarity of 0.932 on 10,000
unseen reviews in our held-out test dataset. We manually assessed the quality
of our predicted embeddings for vector search over text-ada-002-embedded
reviews. While not as good as real text-ada-002 embeddings, predicted
embeddings were able to retrieve highly relevant reviews. Our final model,
Vec2Vec, is lightweight (<80 MB) and fast. Future steps include training a
neural network with a more sophisticated architecture and a larger dataset of
paired embeddings to achieve greater performance. The ability to convert
between and align embedding spaces may be helpful for interoperability,
limiting dependence on proprietary models, protecting data privacy, reducing
costs, and offline operations.
- Abstract(参考訳): ベクトル埋め込みは多くの言語関連タスクのユビキタスツールとなっている。
主要な埋め込みモデルはOpenAIのtext-ada-002で、約6,000ワードを1,536次元ベクトルに埋め込むことができる。
強力だが、text-ada-002はオープンソースではない。
768次元mpnet埋め込みをテキスト-ada-002埋め込みに変換するために、単純なニューラルネットワークを訓練した。
われわれは5万件のオンライン食品レビューをまとめた。
我々は、レビュー毎にMPNetとテキスト-ada-002埋め込みを計算し、75エポックまでの単純なニューラルネットワークを訓練した。
ニューラルネットワークは、所定のMPNET埋め込みに対応するテキスト-ada-002埋め込みを予測するように設計されている。
私たちのモデルは、保留テストデータセットで1万件の未確認レビューに対して平均0.932のコサイン類似性を達成しました。
テキスト-ada-002組込みレビューによるベクトル探索のための予測埋め込みの質を手作業で評価した。
実際のテキスト-ada-002組込みほど良くないが、予測された組込みは、非常に関連性の高いレビューを取得することができた。
最後のモデルであるVec2Vecは軽量(80MB)で高速です。
今後のステップには、より高度なアーキテクチャでニューラルネットワークをトレーニングすることと、パフォーマンス向上のためにペア埋め込みのデータセットを大きくする、などが含まれる。
埋め込みスペースの変換とアライメントは、相互運用性、プロプライエタリなモデルへの依存の制限、データのプライバシ保護、コスト削減、オフライン操作に有効である。
関連論文リスト
- Encodings for Prediction-based Neural Architecture Search [8.564763702766776]
予測に基づく手法は、ニューラルネットワーク探索(NAS)の最適化を大幅に強化した。
従来のエンコーディングでは、ニューラルネットワークのグラフ構造を記述する隣接行列を使用していた。
我々は、構造、学習、スコアベースという3つの主要なタイプのニューラルエンコーディングを分類し、調査する。
textbfFlow textbfAttention for textbfNAS。
論文 参考訳(メタデータ) (2024-03-04T21:05:52Z) - Nomic Embed: Training a Reproducible Long Context Text Embedder [1.4945875098530692]
本報告では,OpenAI Ada および OpenAI Text-embedding-3-small の短文および長文タスクにおける性能に優れた,完全再現性,オープンソース,オープンウェイト,オープンデータ,コンテキスト長8192 の英語テキスト埋め込みモデルである nomic-embed-text-v1 のトレーニングについて述べる。
トレーニングコードとモデルの重み付けをApache 2ライセンスでリリースしています。
論文 参考訳(メタデータ) (2024-02-02T18:23:18Z) - CLAMP: A Contrastive Language And Molecule Pre-training Network [0.0]
材料から材料への代用として,言語から材料への生成アーキテクチャを提案する。
コントラストモデルは畳み込みグラフニューラルネットワークエンコーダと言語エンコーダを用いて訓練することができる。
特定のトレーニングデータがないと、82%の精度が達成され、75%の精度で光触媒の予測が可能となった。
論文 参考訳(メタデータ) (2023-11-12T07:45:35Z) - Multi-label Text Classification using GloVe and Neural Network Models [0.27195102129094995]
既存のソリューションには、予測のための従来の機械学習とディープニューラルネットワークが含まれる。
本稿では,GloVe モデルと CNN-BiLSTM ネットワークに基づくback-of-words モデル手法を提案する。
テストセットの精度は87.26%、F1スコアは0.8737であり、有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T01:30:26Z) - RETVec: Resilient and Efficient Text Vectorizer [5.181952693002194]
RETVecは、256次元ベクトル空間に単語を埋め込むために、新しい文字エンコーディングとオプションの小さな埋め込みモデルを組み合わせる。
RETVec埋め込みモデルは、ペアワイドメトリック学習を用いて事前訓練され、タイプミスやキャラクターレベルの敵攻撃に対して堅牢である。
論文 参考訳(メタデータ) (2023-02-18T02:06:52Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Pixel Difference Networks for Efficient Edge Detection [71.03915957914532]
本稿では,Pixel Difference Network (PiDiNet) という軽量かつ効率的なエッジ検出アーキテクチャを提案する。
BSDS500、NYUD、Multicueのデータセットに関する大規模な実験が、その効果を示すために提供されている。
0.1M未満のパラメータを持つPiDiNetのより高速なバージョンは、200FPSのアーティファクトで同等のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2021-08-16T10:42:59Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。