論文の概要: Contrastive Learning and Mixture of Experts Enables Precise Vector
Embeddings
- arxiv url: http://arxiv.org/abs/2401.15713v1
- Date: Sun, 28 Jan 2024 17:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:49:40.790468
- Title: Contrastive Learning and Mixture of Experts Enables Precise Vector
Embeddings
- Title(参考訳): 精密ベクトル埋め込みを可能にするエキスパートのコントラスト学習と混合
- Authors: Rohan Kapur, Logan Hallee, Arjun Patel, Bohdan Khomtchouk
- Abstract要約: トランスフォーマーニューラルネットワークは、自然言語入力の効率的なベクトル表現を生成する。
これらのモデルはドメイン固有のコンテキストにおいて顕著な課題に直面します。
我々は、最先端モデルを微調整するための2つの重要な戦略を採用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of transformer neural networks has significantly elevated the
capabilities of sentence similarity models, particularly in creating effective
vector representations of natural language inputs. However, these models face
notable challenges in domain-specific contexts, especially in highly
specialized scientific sub-fields. Traditional methods often struggle in this
regime, either overgeneralizing similarities within a niche or being overly
sensitive to minor differences, resulting in inaccurate text classification and
subpar vector representation. In an era where retrieval augmentation and search
are increasingly crucial, precise and concise numerical representations are
essential. In this paper, we target this issue by assembling niche datasets
using co-citations as a similarity metric, focusing on biomedical domains. We
employ two key strategies for fine-tuning state-of-the-art models: 1.
Domain-specific Fine-Tuning, which tailors pretrained models to a single
domain, and 2. Universal Applicability with Mixture of Experts (MoE), adapting
pretrained models with enforced routing for multiple domains simultaneously.
Our training approach emphasizes the use of abstracts for faster training,
incorporating Multiple Negative Rankings loss for efficient contrastive
learning. Notably, our MoE variants, equipped with $N$ experts, achieve the
efficacy of $N$ individual models, heralding a new era of versatile,
One-Size-Fits-All transformer networks for various tasks. This methodology
marks significant advancements in scientific text classification metrics and
holds promise for enhancing vector database search and compilation.
- Abstract(参考訳): トランスフォーマーニューラルネットワークの進歩により、文の類似性モデル、特に自然言語入力の効果的なベクトル表現の作成能力は大幅に向上した。
しかし、これらのモデルはドメイン固有の文脈、特に専門的な科学的サブフィールドにおいて顕著な課題に直面している。
伝統的な手法は、ニッチ内の類似性を過度に一般化するか、小さな違いに過度に敏感にするか、不正確なテキスト分類とサブパーベクトル表現をもたらすか、この体制でしばしば苦労する。
検索と検索がますます重要になっている時代には、正確かつ簡潔な数値表現が不可欠である。
本稿では,生物医学領域に着目し,共引用を類似度指標としてニッチデータセットを組み立てることでこの問題を解決した。
我々は、最先端モデルを微調整するための2つの重要な戦略を採用している。
1.事前学習されたモデルを1つのドメインに調整するドメイン固有の微調整
2. 専門家の混在による普遍的適用性(MoE)。複数のドメインに対する強制ルーティングを備えた事前訓練モデルの同時適用。
トレーニングアプローチでは,より高速な学習に抽象化を用いることを強調し,効率的なコントラスト学習に複数の負のランク付け損失を取り入れた。
特に、N$のエキスパートを備えたMoEは、N$の個人モデルの有効性を達成し、様々なタスクのための多目的なワンサイズ・ファイト・オール・トランスフォーマーネットワークの新しい時代を告げています。
この手法は、科学的テキスト分類の指標が大幅に進歩し、ベクトルデータベースの検索とコンパイルの強化を約束する。
関連論文リスト
- NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - Multi-Domain Learning with Modulation Adapters [33.54630534228469]
マルチドメイン学習は、複数のドメインにまたがる画像分類など、関連するタスクを同時に処理することを目的としている。
変調アダプタは、各タスクに対して乗法的にモデルの畳み込み重みを更新する。
我々のアプローチは、既存の最先端のアプローチと同等かそれ以上の精度で、優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-07-17T14:40:16Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Motor Imagery Decoding Using Ensemble Curriculum Learning and
Collaborative Training [11.157243900163376]
マルチオブジェクトEEGデータセットは、いくつかの種類のドメインシフトを示す。
これらの領域シフトは、堅牢なクロスオブジェクトの一般化を妨げる。
複数の特徴抽出器を組み込んだ2段階モデルアンサンブルアーキテクチャを提案する。
我々のモデルアンサンブルアプローチはカリキュラム学習と協調学習の力を組み合わせたものであることを実証する。
論文 参考訳(メタデータ) (2022-11-21T13:45:44Z) - Improving Diversity with Adversarially Learned Transformations for
Domain Generalization [81.26960899663601]
本稿では、ニューラルネットワークを用いた逆学習変換(ALT)を用いて、可塑性かつハードな画像変換をモデル化する新しいフレームワークを提案する。
我々は、ALTが既存の多様性モジュールと自然に連携して、ソースドメインの大規模変換によって最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-06-15T18:05:24Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Transformer Based Multi-Source Domain Adaptation [53.24606510691877]
実践的な機械学習設定では、モデルを予測しなければならないデータは、トレーニングされたデータとは異なる分布から生まれることが多い。
本稿では、複数のソースドメインからラベル付きデータに基づいてモデルを訓練し、ラベル付きデータが見られないドメイン上で予測を行う、教師なしマルチソースドメイン適応の問題について検討する。
本研究では,大規模な事前学習型変圧器を用いたドメインエキスパートの予測が極めて均質であることを示し,それらの予測を混在させる効果的な関数の学習を困難にしている。
論文 参考訳(メタデータ) (2020-09-16T16:56:23Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。