Fugu-MT 論文翻訳(概要): Do We Need Domain-Specific Embedding Models? An Empirical Investigation

論文の概要: Do We Need Domain-Specific Embedding Models? An Empirical Investigation

arxiv url: http://arxiv.org/abs/2409.18511v1
Date: Thu, 3 Oct 2024 01:44:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 05:52:22.674412
Title: Do We Need Domain-Specific Embedding Models? An Empirical Investigation
Title（参考訳）: ドメイン特化埋め込みモデルが必要か? : 実証的研究
Authors: Yixuan Tang, Yi Yang,
Abstract要約: 埋め込みモデルは、様々なNLPアプリケーションにまたがる情報の表現と検索において重要な役割を果たす。大規模言語モデルの最近の進歩は、埋め込みモデルの性能をさらに向上させた。汎用モデルがすでに特殊なドメインテキストを含む巨大なコーパスで訓練されている場合、ドメイン固有の埋め込みモデルの開発は必要か?
参考スコア（独自算出の注目度）: 18.990655668481075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Embedding models play a crucial role in representing and retrieving information across various NLP applications. Recent advancements in Large Language Models (LLMs) have further enhanced the performance of embedding models, which are trained on massive amounts of text covering almost every domain. These models are often benchmarked on general-purpose datasets like Massive Text Embedding Benchmark (MTEB), where they demonstrate superior performance. However, a critical question arises: Is the development of domain-specific embedding models necessary when general-purpose models are trained on vast corpora that already include specialized domain texts? In this paper, we empirically investigate this question, choosing the finance domain as an example. We introduce the Finance Massive Text Embedding Benchmark (FinMTEB), a counterpart to MTEB that consists of financial domain-specific text datasets. We evaluate the performance of seven state-of-the-art embedding models on FinMTEB and observe a significant performance drop compared to their performance on MTEB. To account for the possibility that this drop is driven by FinMTEB's higher complexity, we propose four measures to quantify dataset complexity and control for this factor in our analysis. Our analysis provides compelling evidence that state-of-the-art embedding models struggle to capture domain-specific linguistic and semantic patterns, even when trained on large general-purpose corpora. This study sheds light on the necessity of developing domain-specific embedding models in the LLM era, offering valuable insights for researchers and practitioners.
Abstract（参考訳）: 埋め込みモデルは、様々なNLPアプリケーションにまたがる情報の表現と検索において重要な役割を果たす。大規模言語モデル(LLM)の最近の進歩は、ほとんどすべてのドメインをカバーする大量のテキストに基づいて訓練された埋め込みモデルの性能をさらに向上させた。これらのモデルはしばしば、より優れたパフォーマンスを示すMTEB(Massive Text Embedding Benchmark)のような汎用データセットでベンチマークされる。汎用モデルがすでに特殊なドメインテキストを含む巨大なコーパスでトレーニングされている場合、ドメイン固有の埋め込みモデルの開発は必要か? 本稿では,金融分野を事例として,この課題を実証的に検討する。金融ドメイン固有のテキストデータセットからなるMTEBに対抗して、ファイナンス質量テキスト埋め込みベンチマーク(FinMTEB)を導入する。我々は、FinMTEB上での7つの最先端埋め込みモデルの性能評価を行い、MTEB上でのパフォーマンスと比較して顕著な性能低下を観測した。この低下がFinMTEBの複雑さの増大によって引き起こされる可能性を考慮するため、本分析では、データセットの複雑さを定量化し、この要因の制御を行うための4つの方法を提案する。我々の分析は、大規模な汎用コーパスで訓練しても、最先端の埋め込みモデルがドメイン固有の言語的・意味的なパターンを捉えるのに苦労していることを示す。この研究は、LLM時代にドメイン固有の埋め込みモデルを開発する必要性に光を当て、研究者や実践者に貴重な洞察を提供する。

関連論文リスト

Dewey Long Context Embedding Model: A Technical Report [0.0]
dewey_en_betaは、MTEB(Eng, v2)およびLongEmbedベンチマーク上で優れたパフォーマンスを実現する、新しいテキスト埋め込みモデルである。本稿では,オープンソースのdewey_en_beta埋め込みモデルのトレーニング手法と評価結果について述べる。
論文参考訳（メタデータ） (2025-03-26T09:55:00Z)
FinMTEB: Finance Massive Text Embedding Benchmark [18.990655668481075]
金融分野向けに設計されたMTEBに特化して開発されたFinMTEB(FinMTEB)について紹介する。 FinMTEBは、7つのタスクにまたがる64の金融ドメイン固有の埋め込みデータセットで構成されている。 1)汎用ベンチマークのパフォーマンスは,金融ドメインタスクとの相関が限定されていること,(2)ドメイン適応モデルの方が汎用タスクより一貫して優れていること,(3)意外なことに,単純なBag-of-Wordsアプローチは,金融セマンティックテクスチャ類似タスクにおける高度に密着した埋め込みよりも優れていること,の3つの重要な結果を示す。
論文参考訳（メタデータ） (2025-02-16T04:23:52Z)
On Domain-Adaptive Post-Training for Multimodal Large Language Models [72.67107077850939]
本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。データ合成、トレーニングパイプライン、タスク評価に重点を置いています。バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
論文参考訳（メタデータ） (2024-11-29T18:42:28Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T07:46:21Z)
Beyond Under-Alignment: Atomic Preference Enhanced Factuality Tuning for Large Language Models [19.015202590038996]
様々な選好学習アルゴリズムによって調整された異なるモデルの事実性を評価する。 textbfAtomic textbfPreference textbfEnhanced textbfFactuality textbfTuning を提案する。
論文参考訳（メタデータ） (2024-06-18T09:07:30Z)
What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。 Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文参考訳（メタデータ） (2024-05-03T17:00:00Z)
Tabular Embedding Model (TEM): Finetuning Embedding Models For Tabular RAG Applications [0.0]
Tabular Embedding Model (TEM) は、表型検索・拡張生成(RAG)アプリケーションのためのファインチューン埋め込みモデルに対する新しいアプローチである。 TEMは現在のSOTA埋め込みモデルよりも優れているだけでなく、より小さく、より効率的なモデル構造でも優れている。
論文参考訳（メタデータ） (2024-04-28T14:58:55Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
Multi-document Summarization: A Comparative Evaluation [0.0]
本論文は,多文書要約(MDS)のための最先端モデルの評価を,様々な領域の異なるタイプのデータセット上で行うことを目的としている。我々は,Big-SurveyおよびMS$2$データセット上でのPRIMERAおよびPEGモデルの性能を解析した。
論文参考訳（メタデータ） (2023-09-10T07:43:42Z)
Benchmarking Diverse-Modal Entity Linking with Generative Models [78.93737257356784]
既存の EL データセットから様々なモード EL (DMEL) のベンチマークを構築した。 DMEL タスクにアプローチするため,マルチモーダルエンコーダ・デコーダのパラダイムに則って生成多モードモデル (GDMM) を提案する。 GDMMは、より強力なDMELベースラインを構築し、平均8.51F1スコアで最先端のタスク固有のELモデルを上回っている。
論文参考訳（メタデータ） (2023-05-27T02:38:46Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)
Attention is Not Always What You Need: Towards Efficient Classification of Domain-Specific Text [1.1508304497344637]
階層構造に整理された数百のクラスを持つ大規模ITコーパスでは、階層構造における上位レベルのクラスの正確な分類が不可欠である。ビジネスの世界では、高額なブラックボックスモデルよりも効率的で説明可能なMLモデルが好まれる。 PLMが広く使われているにもかかわらず、これらのモデルがドメイン固有のテキスト分類に使われている理由として、明確で明確な必要性が欠如している。
論文参考訳（メタデータ） (2023-03-31T03:17:23Z)
WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文参考訳（メタデータ） (2022-10-31T18:35:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。