Fugu-MT 論文翻訳(概要): Contrastive Learning and Mixture of Experts Enables Precise Vector Embeddings

論文の概要: Contrastive Learning and Mixture of Experts Enables Precise Vector Embeddings

arxiv url: http://arxiv.org/abs/2401.15713v1
Date: Sun, 28 Jan 2024 17:34:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 16:49:40.790468
Title: Contrastive Learning and Mixture of Experts Enables Precise Vector Embeddings
Title（参考訳）: 精密ベクトル埋め込みを可能にするエキスパートのコントラスト学習と混合
Authors: Rohan Kapur, Logan Hallee, Arjun Patel, Bohdan Khomtchouk
Abstract要約: トランスフォーマーニューラルネットワークは、自然言語入力の効率的なベクトル表現を生成する。これらのモデルはドメイン固有のコンテキストにおいて顕著な課題に直面します。我々は、最先端モデルを微調整するための2つの重要な戦略を採用している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advancement of transformer neural networks has significantly elevated the capabilities of sentence similarity models, particularly in creating effective vector representations of natural language inputs. However, these models face notable challenges in domain-specific contexts, especially in highly specialized scientific sub-fields. Traditional methods often struggle in this regime, either overgeneralizing similarities within a niche or being overly sensitive to minor differences, resulting in inaccurate text classification and subpar vector representation. In an era where retrieval augmentation and search are increasingly crucial, precise and concise numerical representations are essential. In this paper, we target this issue by assembling niche datasets using co-citations as a similarity metric, focusing on biomedical domains. We employ two key strategies for fine-tuning state-of-the-art models: 1. Domain-specific Fine-Tuning, which tailors pretrained models to a single domain, and 2. Universal Applicability with Mixture of Experts (MoE), adapting pretrained models with enforced routing for multiple domains simultaneously. Our training approach emphasizes the use of abstracts for faster training, incorporating Multiple Negative Rankings loss for efficient contrastive learning. Notably, our MoE variants, equipped with $N$ experts, achieve the efficacy of $N$ individual models, heralding a new era of versatile, One-Size-Fits-All transformer networks for various tasks. This methodology marks significant advancements in scientific text classification metrics and holds promise for enhancing vector database search and compilation.
Abstract（参考訳）: トランスフォーマーニューラルネットワークの進歩により、文の類似性モデル、特に自然言語入力の効果的なベクトル表現の作成能力は大幅に向上した。しかし、これらのモデルはドメイン固有の文脈、特に専門的な科学的サブフィールドにおいて顕著な課題に直面している。伝統的な手法は、ニッチ内の類似性を過度に一般化するか、小さな違いに過度に敏感にするか、不正確なテキスト分類とサブパーベクトル表現をもたらすか、この体制でしばしば苦労する。検索と検索がますます重要になっている時代には、正確かつ簡潔な数値表現が不可欠である。本稿では,生物医学領域に着目し,共引用を類似度指標としてニッチデータセットを組み立てることでこの問題を解決した。我々は、最先端モデルを微調整するための2つの重要な戦略を採用している。 1.事前学習されたモデルを1つのドメインに調整するドメイン固有の微調整 2. 専門家の混在による普遍的適用性(MoE)。複数のドメインに対する強制ルーティングを備えた事前訓練モデルの同時適用。トレーニングアプローチでは,より高速な学習に抽象化を用いることを強調し,効率的なコントラスト学習に複数の負のランク付け損失を取り入れた。特に、N$のエキスパートを備えたMoEは、N$の個人モデルの有効性を達成し、様々なタスクのための多目的なワンサイズ・ファイト・オール・トランスフォーマーネットワークの新しい時代を告げています。この手法は、科学的テキスト分類の指標が大幅に進歩し、ベクトルデータベースの検索とコンパイルの強化を約束する。

関連論文リスト

Utilizing BERT for Information Retrieval: Survey, Applications, Resources, and Challenges [4.588192657854766]
本調査は、情報検索(IR)にBERTのような事前訓練されたトランスフォーマーエンコーダを適用するアプローチに焦点を当てる。 i) 長文処理, (ii) 意味情報の統合, (iii) 有効性と効率のバランス, (iv) 用語の重み付け予測, (v) クエリ拡張, (vi) 文書拡張の6つの高レベルカテゴリに分類した。特定のタスクに対して、細かな調整されたBERTエンコーダは依然としてパフォーマンスが良く、デプロイメントコストも低いことが分かりました。
論文参考訳（メタデータ） (2024-02-18T23:22:40Z)
A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文参考訳（メタデータ） (2023-06-11T23:13:51Z)
Multidimensional Perceptron for Efficient and Explainable Long Text Classification [31.31206469613901]
本稿では,フレームワーク内の注目/RNNを置き換えるために,単純だが効果的なSegment-aWare多次元PErceptron(SWIPE)を提案する。 SWIPEは、テキスト全体のラベルを教師付きトレーニングで効果的に学習し、セグメントのラベルを認識し、長文ラベリングへの貢献を見積もる。
論文参考訳（メタデータ） (2023-04-04T08:49:39Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)
Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。 MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文参考訳（メタデータ） (2022-05-04T23:40:04Z)
Hierarchical Transformer Model for Scientific Named Entity Recognition [0.20646127669654832]
名前付きエンティティ認識のためのシンプルで効果的なアプローチを提案する。提案手法の主な考え方は、入力サブワードシーケンスをBERTのような事前学習された変換器で符号化することである。科学的NERのための3つのベンチマークデータセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2022-03-28T12:59:06Z)
META: Mimicking Embedding via oThers' Aggregation for Generalizable Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文参考訳（メタデータ） (2021-12-16T08:06:50Z)
Transferring BERT-like Transformers' Knowledge for Authorship Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文参考訳（メタデータ） (2021-12-09T18:57:29Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)
Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文参考訳（メタデータ） (2020-10-13T15:20:32Z)
Transformer Based Multi-Source Domain Adaptation [53.24606510691877]
実践的な機械学習設定では、モデルを予測しなければならないデータは、トレーニングされたデータとは異なる分布から生まれることが多い。本稿では、複数のソースドメインからラベル付きデータに基づいてモデルを訓練し、ラベル付きデータが見られないドメイン上で予測を行う、教師なしマルチソースドメイン適応の問題について検討する。本研究では,大規模な事前学習型変圧器を用いたドメインエキスパートの予測が極めて均質であることを示し,それらの予測を混在させる効果的な関数の学習を困難にしている。
論文参考訳（メタデータ） (2020-09-16T16:56:23Z)
MT-BioNER: Multi-task Learning for Biomedical Named Entity Recognition using Deep Bidirectional Transformers [1.7403133838762446]
異なるスロットタイプをカバーする複数のデータセットを用いたスロットタグの訓練をマルチタスク学習問題として検討する。生物医学領域における実験結果から,提案手法は従来のスロットタグシステムよりも優れていることが示された。
論文参考訳（メタデータ） (2020-01-24T07:16:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。