論文の概要: A Compass for Navigating the World of Sentence Embeddings for the Telecom Domain
- arxiv url: http://arxiv.org/abs/2406.12336v1
- Date: Tue, 18 Jun 2024 07:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:25:52.408888
- Title: A Compass for Navigating the World of Sentence Embeddings for the Telecom Domain
- Title(参考訳): テレコムドメインのための文埋め込みの世界をナビゲートするためのコンパス
- Authors: Sujoy Roychowdhury, Sumit Soman, H. G. Ranjani, Vansh Chhabra, Neeraj Gunda, Subhadip Bandyopadhyay, Sai Krishna Bala,
- Abstract要約: パブリックモデルとドメイン適応型から得られた複数の埋め込みを評価した。
我々は、微調整により平均ブートストラップの精度が向上し、信頼区間が短縮されるのを観察する。
- 参考スコア(独自算出の注目度): 12.135498957287004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A plethora of sentence embedding models makes it challenging to choose one, especially for domains such as telecom, rich with specialized vocabulary. We evaluate multiple embeddings obtained from publicly available models and their domain-adapted variants, on both point retrieval accuracies as well as their (95\%) confidence intervals. We establish a systematic method to obtain thresholds for similarity scores for different embeddings. We observe that fine-tuning improves mean bootstrapped accuracies as well as tightens confidence intervals. The pre-training combined with fine-tuning makes confidence intervals even tighter. To understand these variations, we analyse and report significant correlations between the distributional overlap between top-$K$, correct and random sentence similarities with retrieval accuracies and similarity thresholds. Following current literature, we analyze if retrieval accuracy variations can be attributed to isotropy of embeddings. Our conclusions are that isotropy of embeddings (as measured by two independent state-of-the-art isotropy metric definitions) cannot be attributed to better retrieval performance. However, domain adaptation which improves retrieval accuracies also improves isotropy. We establish that domain adaptation moves domain specific embeddings further away from general domain embeddings.
- Abstract(参考訳): 多くの文埋め込みモデルでは、特に専門用語に富んだテレコムのようなドメインでは、そのモデルを選択するのが難しくなる。
一般に利用可能なモデルとそのドメイン適応型から得られた複数の埋め込みを、各点検索精度と95%の信頼区間に基づいて評価する。
我々は,異なる埋め込みに対する類似度スコアのしきい値を得るための体系的手法を確立する。
我々は、微調整により平均ブートストラップの精度が向上し、信頼区間が短縮されるのを観察する。
事前トレーニングと微調整を組み合わせることで、信頼区間はさらに厳密になる。
これらの変動を理解するために,トップ$K$,正しい文とランダムな文類似度と,検索精度と類似度閾値との分布重なりの有意な相関関係を分析し,報告する。
現在の文献に従えば, 検索精度の変動が埋め込みの等方性に起因するかどうかを解析する。
我々の結論は、埋め込みの等方性(2つの独立状態の等方性メートル法によって測定される)は、より良い検索性能に起因できないということである。
しかし、検索精度を向上させるドメイン適応は、等方性も改善する。
ドメイン適応は、ドメイン固有の埋め込みを一般的なドメイン埋め込みからさらに遠ざかることを確立します。
関連論文リスト
- Reliable Evaluation of Attribution Maps in CNNs: A Perturbation-Based Approach [7.1606014219358425]
本稿では、畳み込みニューラルネットワーク(CNNGrads)の予測の解釈において中心的な役割を果たす属性マップの評価手法を提案する。
本研究では,広く使用されている挿入・削除指標が,ランキングの信頼性に影響を及ぼす分布シフトの影響を受けやすいことを示す。
提案手法は, 画素修正を逆方向の摂動に置き換えることであり, より堅牢な評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-22T13:57:56Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Training BERT Models to Carry Over a Coding System Developed on One Corpus to Another [0.0]
本稿では,ハンガリーの文芸雑誌の段落で開発されたコーディングシステムを通じて,BERTモデルを学習する方法について述べる。
コーディングシステムの目的は、1989年のハンガリーにおける政治変革に関する文学翻訳の認識の傾向を追跡することである。
論文 参考訳(メタデータ) (2023-08-07T17:46:49Z) - PromptORE -- A Novel Approach Towards Fully Unsupervised Relation
Extraction [0.0]
教師なし関係抽出(RE)は、トレーニング中にラベル付きデータにアクセスすることなく、テキスト内のエンティティ間の関係を識別することを目的としている。
本稿では,'Prompt-based Open Relation extract'モデルであるPromptOREを提案する。
我々は、新しいプロンプトチューニングパラダイムを教師なしの設定に適応させ、関係を表す文を埋め込む。
PromptOREは,B,V,ARIの40%以上の増加率を持つ最先端モデルより一貫して優れていた。
論文 参考訳(メタデータ) (2023-03-24T12:55:35Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Birds of a Feather Trust Together: Knowing When to Trust a Classifier
via Adaptive Neighborhood Aggregation [30.34223543030105]
我々は、NeighborAggがアダプティブ近隣アグリゲーションを介して2つの重要な情報を利用する方法を示す。
また, 誤り検出の密接な関連課題へのアプローチを拡張し, 偽陰性境界に対する理論的カバレッジを保証する。
論文 参考訳(メタデータ) (2022-11-29T18:43:15Z) - Assaying Out-Of-Distribution Generalization in Transfer Learning [103.57862972967273]
私たちは、経験的に対処するメッセージの相違を強調して、以前の作業の統一的なビューを取ります。
私たちは9つの異なるアーキテクチャから、多数の、あるいは少数の設定で31K以上のネットワークを微調整しました。
論文 参考訳(メタデータ) (2022-07-19T12:52:33Z) - Are Missing Links Predictable? An Inferential Benchmark for Knowledge
Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。
各テストサンプルは、トレーニングセットの支持データで予測可能である。
実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (2021-08-03T09:51:15Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。