Fugu-MT 論文翻訳(概要): Automated Collection of Evaluation Dataset for Semantic Search in Low-Resource Domain Language

論文の概要: Automated Collection of Evaluation Dataset for Semantic Search in Low-Resource Domain Language

arxiv url: http://arxiv.org/abs/2412.10008v1
Date: Fri, 13 Dec 2024 09:47:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.925765
Title: Automated Collection of Evaluation Dataset for Semantic Search in Low-Resource Domain Language
Title（参考訳）: 低リソースドメイン言語における意味探索のための評価データセットの自動収集
Authors: Anastasia Zhukova, Christian E. Matt, Bela Gipp,
Abstract要約: 多くの特定の用語を使用するドメイン固有言語は、しばしば低リソース言語に分類される。本研究では,低リソースなドメイン固有ドイツ語のセマンティック検索を評価するために,テストデータセットの自動収集という課題に対処する。
参考スコア（独自算出の注目度）: 4.5224851085910585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Domain-specific languages that use a lot of specific terminology often fall into the category of low-resource languages. Collecting test datasets in a narrow domain is time-consuming and requires skilled human resources with domain knowledge and training for the annotation task. This study addresses the challenge of automated collecting test datasets to evaluate semantic search in low-resource domain-specific German language of the process industry. Our approach proposes an end-to-end annotation pipeline for automated query generation to the score reassessment of query-document pairs. To overcome the lack of text encoders trained in the German chemistry domain, we explore a principle of an ensemble of "weak" text encoders trained on common knowledge datasets. We combine individual relevance scores from diverse models to retrieve document candidates and relevance scores generated by an LLM, aiming to achieve consensus on query-document alignment. Evaluation results demonstrate that the ensemble method significantly improves alignment with human-assigned relevance scores, outperforming individual models in both inter-coder agreement and accuracy metrics. These findings suggest that ensemble learning can effectively adapt semantic search systems for specialized, low-resource languages, offering a practical solution to resource limitations in domain-specific contexts.
Abstract（参考訳）: 多くの特定の用語を使用するドメイン固有言語は、しばしば低リソース言語に分類される。狭いドメインでテストデータセットを集めるのに時間がかかり、アノテーションタスクにドメイン知識とトレーニングを備えた熟練した人材を必要とします。本研究では,プロセス産業における低リソースドメイン固有ドイツ語のセマンティック検索を評価するために,テストデータセットの自動収集という課題に対処する。提案手法では,問合せ-文書ペアのスコア再評価のために,問合せの自動生成のためのエンドツーエンドアノテーションパイプラインを提案する。ドイツ化学領域で訓練されたテキストエンコーダの欠如を克服するため、共通知識データセットに基づいて訓練された"弱"テキストエンコーダのアンサンブルの原理を探索する。多様なモデルから個々の関連スコアを合成して文書候補とLCMが生成した関連スコアを検索し,クエリ文書のアライメントに関するコンセンサスを実現する。評価結果から,アンサンブル法は人間とアサインされた関連スコアとの整合性を大幅に向上し,コーダ間の一致と精度の両指標において,個々のモデルよりも優れることが示された。これらの結果から,アンサンブル学習は,特定の低リソース言語に対するセマンティック検索システムを効果的に適用し,ドメイン固有の文脈におけるリソース制限に対する実践的な解決策を提供する可能性が示唆された。

関連論文リスト

Unsupervised Named Entity Disambiguation for Low Resource Domains [0.4297070083645049]
GST(Group Steiner Trees)の概念を利用した教師なしアプローチを提案する。 GSTは、候補エンティティ間のコンテキスト的類似性を用いて、最も関連性の高いエンティティの曖昧さの候補を特定することができる。我々は、さまざまなドメイン固有のデータセットでPrecision@1の観点で、最先端の教師なしメソッドを40%以上(例では)上回っています。
論文参考訳（メタデータ） (2024-12-13T11:35:00Z)
MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文参考訳（メタデータ） (2024-06-11T16:26:18Z)
Exploring Large Language Models for Relevance Judgments in Tetun [0.03683202928838613]
本稿では,大規模言語モデル(LLM)による妥当性評価の自動化の可能性について検討する。 LLMは、Tetunで一連のクエリドキュメントペアを入力テキストとして提供することにより、関連判断タスクを自動化するために使用される。本研究は,高ソース言語研究において報告された結果と密接に一致した結果を明らかにする。
論文参考訳（メタデータ） (2024-06-11T14:28:24Z)
Harnessing the Power of Beta Scoring in Deep Active Learning for Multi-Label Text Classification [6.662167018900634]
本研究は,期待損失削減フレームワーク内の適切なスコアリングルールのベータファミリを活かした,新たなアクティブな学習戦略を提案する。これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。合成データセットと実データセットの総合的な評価により,複数ラベルのテキスト分類において,確立された取得技術を上回る性能が得られた。
論文参考訳（メタデータ） (2024-01-15T00:06:24Z)
A Self-enhancement Approach for Domain-specific Chatbot Training via Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文参考訳（メタデータ） (2023-11-17T16:09:10Z)
BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。 APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文参考訳（メタデータ） (2022-06-21T18:34:11Z)
On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文参考訳（メタデータ） (2021-12-21T08:10:27Z)
SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。 SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文参考訳（メタデータ） (2021-11-19T18:59:23Z)
FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。 FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文参考訳（メタデータ） (2020-12-31T17:15:09Z)
Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文参考訳（メタデータ） (2020-11-23T16:00:42Z)
Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。このようなモデルに基づくドメインデータ選択手法を提案する。我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文参考訳（メタデータ） (2020-04-05T06:22:16Z)
ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文参考訳（メタデータ） (2019-12-29T07:27:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。