論文の概要: Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for
Pairwise Sentence Scoring Tasks
- arxiv url: http://arxiv.org/abs/2010.08240v2
- Date: Mon, 12 Apr 2021 10:02:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:56:01.270547
- Title: Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for
Pairwise Sentence Scoring Tasks
- Title(参考訳): Augmented SBERT:Pairwise Scoring Tasksのためのバイエンコーダ改善のためのデータ拡張手法
- Authors: Nandan Thakur, Nils Reimers, Johannes Daxenberger, Iryna Gurevych
- Abstract要約: 本稿では,Augmented SBERTと呼ばれる単純なデータ拡張戦略を提案する。
クロスエンコーダを用いて、より大きな入力ペアのセットをラベル付けし、バイエンコーダのトレーニングデータを増強する。
このプロセスでは,文ペアの選択は非自明であり,提案手法の成功には不可欠であることを示す。
- 参考スコア(独自算出の注目度): 59.13635174016506
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: There are two approaches for pairwise sentence scoring: Cross-encoders, which
perform full-attention over the input pair, and Bi-encoders, which map each
input independently to a dense vector space. While cross-encoders often achieve
higher performance, they are too slow for many practical use cases.
Bi-encoders, on the other hand, require substantial training data and
fine-tuning over the target task to achieve competitive performance. We present
a simple yet efficient data augmentation strategy called Augmented SBERT, where
we use the cross-encoder to label a larger set of input pairs to augment the
training data for the bi-encoder. We show that, in this process, selecting the
sentence pairs is non-trivial and crucial for the success of the method. We
evaluate our approach on multiple tasks (in-domain) as well as on a domain
adaptation task. Augmented SBERT achieves an improvement of up to 6 points for
in-domain and of up to 37 points for domain adaptation tasks compared to the
original bi-encoder performance.
- Abstract(参考訳): ペアワイズ文のスコアリングには2つのアプローチがある: 入力ペア上でフルアテンションを行うクロスエンコーダと、各入力を密閉ベクトル空間に独立にマッピングするバイエンコーダである。
クロスエンコーダは高いパフォーマンスを実現することが多いが、多くの実用的なユースケースでは遅すぎる。
一方、バイエンコーダは、競争性能を達成するために、相当なトレーニングデータと目標タスクの微調整を必要とする。
Augmented SBERTと呼ばれる単純なデータ拡張戦略を提案し、クロスエンコーダを用いてより大きな入力ペアのセットをラベル付けし、バイエンコーダのトレーニングデータを増強する。
このプロセスでは,文ペアの選択は非自明であり,提案手法の成功には不可欠であることを示す。
我々は、複数のタスク(ドメイン内)およびドメイン適応タスクに対するアプローチを評価する。
Augmented SBERTは、ドメイン内最大6ポイント、ドメイン適応タスク最大37ポイントの改善を実現している。
関連論文リスト
- Dual-Path Adversarial Lifting for Domain Shift Correction in Online Test-time Adaptation [59.18151483767509]
テスト時間適応におけるドメインシフト補正のためのデュアルパストークンリフトを導入する。
次に、インターリーブされたトークン予測とドメインシフトトークンのパスとクラストークンのパスの間の更新を行う。
評価実験の結果,提案手法はオンライン完全テスト時間領域適応性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-08-26T02:33:47Z) - LAIT: Efficient Multi-Segment Encoding in Transformers with
Layer-Adjustable Interaction [31.895986544484206]
変換器(LAIT)における層間相互作用について紹介する。
LAIT内では、セグメント化された入力は、まず独立に符号化され、次に共同で符号化される。
LAITは高い精度を保ちながら、多くのタスクにおけるFLOPの30~50%の注意を減らすことができる。
論文 参考訳(メタデータ) (2023-05-31T06:09:59Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Rate Coding or Direct Coding: Which One is Better for Accurate, Robust,
and Energy-efficient Spiking Neural Networks? [4.872468969809081]
スパイキングニューラルネットワーク(SNN)は画像分類タスクに重点を置いているため、画像を時間的バイナリスパイクに変換するための様々なコーディング技術が提案されている。
これらのうち、レートコーディングとダイレクトコーディングは、実用的なSNNシステムを構築するための候補として期待されている。
我々は3つの視点から2つの符号化を包括的に分析する。
論文 参考訳(メタデータ) (2022-01-31T16:18:07Z) - Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文 参考訳(メタデータ) (2021-09-27T14:06:47Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。