論文の概要: A Compass for Navigating the World of Sentence Embeddings for the Telecom Domain
- arxiv url: http://arxiv.org/abs/2406.12336v1
- Date: Tue, 18 Jun 2024 07:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:25:52.408888
- Title: A Compass for Navigating the World of Sentence Embeddings for the Telecom Domain
- Title(参考訳): テレコムドメインのための文埋め込みの世界をナビゲートするためのコンパス
- Authors: Sujoy Roychowdhury, Sumit Soman, H. G. Ranjani, Vansh Chhabra, Neeraj Gunda, Subhadip Bandyopadhyay, Sai Krishna Bala,
- Abstract要約: パブリックモデルとドメイン適応型から得られた複数の埋め込みを評価した。
我々は、微調整により平均ブートストラップの精度が向上し、信頼区間が短縮されるのを観察する。
- 参考スコア(独自算出の注目度): 12.135498957287004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A plethora of sentence embedding models makes it challenging to choose one, especially for domains such as telecom, rich with specialized vocabulary. We evaluate multiple embeddings obtained from publicly available models and their domain-adapted variants, on both point retrieval accuracies as well as their (95\%) confidence intervals. We establish a systematic method to obtain thresholds for similarity scores for different embeddings. We observe that fine-tuning improves mean bootstrapped accuracies as well as tightens confidence intervals. The pre-training combined with fine-tuning makes confidence intervals even tighter. To understand these variations, we analyse and report significant correlations between the distributional overlap between top-$K$, correct and random sentence similarities with retrieval accuracies and similarity thresholds. Following current literature, we analyze if retrieval accuracy variations can be attributed to isotropy of embeddings. Our conclusions are that isotropy of embeddings (as measured by two independent state-of-the-art isotropy metric definitions) cannot be attributed to better retrieval performance. However, domain adaptation which improves retrieval accuracies also improves isotropy. We establish that domain adaptation moves domain specific embeddings further away from general domain embeddings.
- Abstract(参考訳): 多くの文埋め込みモデルでは、特に専門用語に富んだテレコムのようなドメインでは、そのモデルを選択するのが難しくなる。
一般に利用可能なモデルとそのドメイン適応型から得られた複数の埋め込みを、各点検索精度と95%の信頼区間に基づいて評価する。
我々は,異なる埋め込みに対する類似度スコアのしきい値を得るための体系的手法を確立する。
我々は、微調整により平均ブートストラップの精度が向上し、信頼区間が短縮されるのを観察する。
事前トレーニングと微調整を組み合わせることで、信頼区間はさらに厳密になる。
これらの変動を理解するために,トップ$K$,正しい文とランダムな文類似度と,検索精度と類似度閾値との分布重なりの有意な相関関係を分析し,報告する。
現在の文献に従えば, 検索精度の変動が埋め込みの等方性に起因するかどうかを解析する。
我々の結論は、埋め込みの等方性(2つの独立状態の等方性メートル法によって測定される)は、より良い検索性能に起因できないということである。
しかし、検索精度を向上させるドメイン適応は、等方性も改善する。
ドメイン適応は、ドメイン固有の埋め込みを一般的なドメイン埋め込みからさらに遠ざかることを確立します。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - A Distribution-Based Threshold for Determining Sentence Similarity [0.0]
本稿では,意味的テキスト類似性(STS)問題に対する解決法を提案する。
このソリューションは、シアムアーキテクチャに基づくニューラルネットワークの使用を中心に展開され、類似した文と異なる文のペア間の距離の分布を生成する。
論文 参考訳(メタデータ) (2023-11-28T10:42:35Z) - Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another [0.0]
本稿では,ハンガリーの文芸雑誌の段落で開発されたコーディングシステムを通じて,BERTモデルを学習する方法について述べる。
コーディングシステムの目的は、1989年のハンガリーにおける政治変革に関する文学翻訳の認識の傾向を追跡することである。
論文 参考訳(メタデータ) (2023-08-07T17:46:49Z) - Birds of a Feather Trust Together: Knowing When to Trust a Classifier
via Adaptive Neighborhood Aggregation [30.34223543030105]
我々は、NeighborAggがアダプティブ近隣アグリゲーションを介して2つの重要な情報を利用する方法を示す。
また, 誤り検出の密接な関連課題へのアプローチを拡張し, 偽陰性境界に対する理論的カバレッジを保証する。
論文 参考訳(メタデータ) (2022-11-29T18:43:15Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - A Bit More Bayesian: Domain-Invariant Learning with Uncertainty [111.22588110362705]
ドメインの一般化は、ドメインシフトと、ターゲットドメインデータのアクセス不能に起因する不確実性のために困難である。
本稿では,変分ベイズ推定に基づく確率的枠組みを用いて,両課題に対処する。
2層ベイズ型ニューラルネットワークで共同で確立されたドメイン不変表現と分類器を導出する。
論文 参考訳(メタデータ) (2021-05-09T21:33:27Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Optimal Change-Point Detection with Training Sequences in the Large and
Moderate Deviations Regimes [72.68201611113673]
本稿では,情報理論の観点から,新しいオフライン変化点検出問題について検討する。
基礎となる事前および変更後分布の知識は分かっておらず、利用可能なトレーニングシーケンスからのみ学習できると仮定する。
論文 参考訳(メタデータ) (2020-03-13T23:39:40Z) - NestedVAE: Isolating Common Factors via Weak Supervision [45.366986365879505]
我々は、バイアス低減の課題と、ドメイン間で共通する分離要因の関係を同定する。
共通因子を分離するために、潜伏変数モデルの理論と情報ボトルネック理論を組み合わせる。
共有重みを持つ2つの外部VAEは入力を再構成し、潜伏空間を推論し、一方、ネストされたVAEはペア化された画像の潜伏表現から1つの画像の潜伏表現を再構成しようとする。
論文 参考訳(メタデータ) (2020-02-26T15:49:57Z) - Multi-Source Domain Adaptation for Text Classification via
DistanceNet-Bandits [101.68525259222164]
本研究では,NLPタスクのコンテキストにおいて,サンプル推定に基づく領域間の相違を特徴付ける様々な距離ベース尺度について検討する。
タスクの損失関数と協調して最小化するために,これらの距離測度を付加的な損失関数として用いるディスタンスネットモデルを開発した。
マルチアーム・バンド・コントローラを用いて複数のソース・ドメインを動的に切り替えるDistanceNet-Banditモデルに拡張する。
論文 参考訳(メタデータ) (2020-01-13T15:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。