Fugu-MT 論文翻訳(概要): Extracting Text Representations for Terms and Phrases in Technical Domains

論文の概要: Extracting Text Representations for Terms and Phrases in Technical Domains

arxiv url: http://arxiv.org/abs/2305.15867v1
Date: Thu, 25 May 2023 08:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 16:16:54.385024
Title: Extracting Text Representations for Terms and Phrases in Technical Domains
Title（参考訳）: 専門分野における用語・句のテキスト表現の抽出
Authors: Francesco Fusco, Diego Antognini
Abstract要約: そこで本研究では,大容量の事前学習組込み行列を再構築する目的で,小文字モデルを用いたテキスト符号化手法を提案する。このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質に適合するだけでなく、5倍小さく、最大10倍高速である。
参考スコア（独自算出の注目度）: 9.27244202193623
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Extracting dense representations for terms and phrases is a task of great importance for knowledge discovery platforms targeting highly-technical fields. Dense representations are used as features for downstream components and have multiple applications ranging from ranking results in search to summarization. Common approaches to create dense representations include training domain-specific embeddings with self-supervised setups or using sentence encoder models trained over similarity tasks. In contrast to static embeddings, sentence encoders do not suffer from the out-of-vocabulary (OOV) problem, but impose significant computational costs. In this paper, we propose a fully unsupervised approach to text encoding that consists of training small character-based models with the objective of reconstructing large pre-trained embedding matrices. Models trained with this approach can not only match the quality of sentence encoders in technical domains, but are 5 times smaller and up to 10 times faster, even on high-end GPUs.
Abstract（参考訳）: 用語やフレーズの密度の高い表現を抽出することは、高度技術分野を対象とした知識発見プラットフォームにとって非常に重要な課題である。センス表現は下流コンポーネントの機能として使われ、検索結果のランキングから要約まで、複数のアプリケーションがある。密集表現を作成するための一般的なアプローチには、自己教師付きセットアップによるドメイン固有の埋め込みのトレーニングや、類似性タスクでトレーニングされた文エンコーダモデルの使用がある。静的埋め込みとは対照的に、文エンコーダは語彙外問題(OOV)に悩まされることはないが、計算コストは相当である。本稿では,大容量の事前学習組込み行列を再構成することを目的とした,小文字モデルを用いたテキスト符号化手法を提案する。このアプローチでトレーニングされたモデルは、技術領域における文エンコーダの品質にマッチするだけでなく、ハイエンドgpuでも5倍小さく、最大10倍高速になる。

関連論文リスト

Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文参考訳（メタデータ） (2025-03-21T04:56:24Z)
A Context-Driven Training-Free Network for Lightweight Scene Text Segmentation and Recognition [32.142713322062306]
テキスト認識システムは、広範囲のトレーニングを必要とする大規模なエンドツーエンドアーキテクチャに依存しており、リアルタイムシナリオでは極めて高価である。本稿では,冗長計算を最小化しつつ,事前学習したテキスト認識器の強みを生かした,学習不要なプラグイン・アンド・プレイフレームワークを提案する。提案手法では,文脈に基づく理解と注目に基づくセグメンテーションのステージを導入し,画素レベルの候補テキスト領域を改良する。
論文参考訳（メタデータ） (2025-03-19T18:51:01Z)
Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文参考訳（メタデータ） (2024-04-27T14:43:32Z)
Harnessing the Power of Beta Scoring in Deep Active Learning for Multi-Label Text Classification [6.662167018900634]
本研究は,期待損失削減フレームワーク内の適切なスコアリングルールのベータファミリを活かした,新たなアクティブな学習戦略を提案する。これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。合成データセットと実データセットの総合的な評価により,複数ラベルのテキスト分類において,確立された取得技術を上回る性能が得られた。
論文参考訳（メタデータ） (2024-01-15T00:06:24Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文参考訳（メタデータ） (2023-05-18T16:02:04Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)
Learning to Look Inside: Augmenting Token-Based Encoders with Character-Level Information [29.633735942273997]
XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
論文参考訳（メタデータ） (2021-08-01T08:09:26Z)
Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文参考訳（メタデータ） (2020-10-23T21:52:38Z)
Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文参考訳（メタデータ） (2020-10-07T21:02:41Z)
DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文参考訳（メタデータ） (2020-06-05T20:00:28Z)
Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文参考訳（メタデータ） (2020-05-18T06:04:58Z)
General Purpose Text Embeddings from Pre-trained Language Models for Scalable Inference [34.47592026375839]
我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
論文参考訳（メタデータ） (2020-04-29T16:11:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。