論文の概要: LinkTransformer: A Unified Package for Record Linkage with Transformer
Language Models
- arxiv url: http://arxiv.org/abs/2309.00789v1
- Date: Sat, 2 Sep 2023 01:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:05:28.026219
- Title: LinkTransformer: A Unified Package for Record Linkage with Transformer
Language Models
- Title(参考訳): LinkTransformer: トランスフォーマー言語モデルによるレコードリンクのための統一パッケージ
- Authors: Abhishek Arora, Melissa Dell
- Abstract要約: LinkTransformerは、人気のある文字列マッチングメソッドの親しみやすさと使いやすさを、ディープラーニングに拡張することを目的としている。
コアとなるのは、4行のコードでリンクを記録するためにトランスフォーマーモデルを適用する、既製のツールキットである。
LinkTransformerには、トレーニング済みのトランスフォーマーセマンティック類似モデルの豊富なリポジトリが含まれている。
- 参考スコア(独自算出の注目度): 2.44755919161855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linking information across sources is fundamental to a variety of analyses in
social science, business, and government. While large language models (LLMs)
offer enormous promise for improving record linkage in noisy datasets, in many
domains approximate string matching packages in popular softwares such as R and
Stata remain predominant. These packages have clean, simple interfaces and can
be easily extended to a diversity of languages. Our open-source package
LinkTransformer aims to extend the familiarity and ease-of-use of popular
string matching methods to deep learning. It is a general purpose package for
record linkage with transformer LLMs that treats record linkage as a text
retrieval problem. At its core is an off-the-shelf toolkit for applying
transformer models to record linkage with four lines of code. LinkTransformer
contains a rich repository of pre-trained transformer semantic similarity
models for multiple languages and supports easy integration of any transformer
language model from Hugging Face or OpenAI. It supports standard functionality
such as blocking and linking on multiple noisy fields. LinkTransformer APIs
also perform other common text data processing tasks, e.g., aggregation, noisy
de-duplication, and translation-free cross-lingual linkage. Importantly,
LinkTransformer also contains comprehensive tools for efficient model tuning,
to facilitate different levels of customization when off-the-shelf models do
not provide the required accuracy. Finally, to promote reusability,
reproducibility, and extensibility, LinkTransformer makes it easy for users to
contribute their custom-trained models to its model hub. By combining
transformer language models with intuitive APIs that will be familiar to many
users of popular string matching packages, LinkTransformer aims to democratize
the benefits of LLMs among those who may be less familiar with deep learning
frameworks.
- Abstract(参考訳): 情報源間で情報をリンクすることは、社会科学、ビジネス、政府における様々な分析の基礎である。
大規模な言語モデル(llms)は、ノイズの多いデータセットにおけるレコードリンクを改善するという大きな期待を抱いているが、rやstataのような一般的なソフトウェアでは、多くのドメインで近似文字列マッチングパッケージが主流である。
これらのパッケージはクリーンでシンプルなインタフェースを持ち、様々な言語に容易に拡張できる。
当社のオープンソースパッケージLinkTransformerは,一般的な文字列マッチング手法の親しみやすさと使いやすさを,ディープラーニングに拡張することを目的としています。
これは、レコードリンクをテキスト検索問題として扱うトランスフォーマーLSMとのレコードリンクのための汎用パッケージである。
コアとなるのは、4行のコードでリンクを記録するためにトランスフォーマーモデルを適用する、既製のツールキットである。
LinkTransformerには、複数の言語用に事前訓練されたトランスフォーマーセマンティック類似モデルの豊富なリポジトリが含まれており、Hugging FaceやOpenAIからのトランスフォーマー言語モデルの統合が容易である。
複数のノイズフィールドのブロッキングやリンクなどの標準的な機能をサポートしている。
LinkTransformer APIは、アグリゲーション、ノイズ非重複、翻訳不要な言語間リンクなど、他の一般的なテキストデータ処理タスクも実行する。
重要なのは、LinkTransformerには、効率的なモデルチューニングのための包括的なツールも含まれていることだ。
最後に、再利用性、再現性、拡張性を促進するために、linktransformerはユーザが独自のトレーニングモデルを簡単にmodel hubにコントリビュートできるようにする。
LinkTransformerは、トランスフォーマー言語モデルと、人気のある文字列マッチングパッケージの多くのユーザになじみのある直感的なAPIを組み合わせることで、ディープラーニングフレームワークに馴染みのない人たちの間で、LLMのメリットを民主化することを目指している。
関連論文リスト
- Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。
この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。
我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T12:10:29Z) - A Closer Look at In-Context Learning under Distribution Shifts [24.59271215602147]
線形回帰の単純かつ基本的なタスクのレンズから、文脈内学習の一般性と限界をよりよく理解することを目的としている。
変圧器とセットベース分布の両方が, 正規最小二乗(OLS)の性能をより密にエミュレートし, 文脈内学習による分布評価を行うことがわかった。
トランスフォーマーはまた、セットベースの分散がフェーターとなる、軽微な分散シフトに対するレジリエンスも向上している。
論文 参考訳(メタデータ) (2023-05-26T07:47:21Z) - Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。
対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-12-01T17:06:39Z) - Trankit: A Light-Weight Transformer-based Toolkit for Multilingual
Natural Language Processing [22.38792093462942]
Trankitは多言語自然言語処理のための軽量トランスフォーマーベースのツールキット
100言語以上の基本的なNLPタスクのためのトレーニング可能なパイプラインと56言語のための90の事前トレーニングパイプラインを提供する。
Trankitは、文のセグメンテーション、音声の一部タグ付け、形態的特徴タグ付け、依存性解析よりも、以前の多言語NLPパイプラインを大幅に上回る。
論文 参考訳(メタデータ) (2021-01-09T04:55:52Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Multi-channel Transformers for Multi-articulatory Sign Language
Translation [59.38247587308604]
本稿では,多調な手話翻訳課題に取り組み,新しいマルチチャネルトランスフォーマアーキテクチャを提案する。
提案アーキテクチャにより、異なる手話調節間の文脈内関係をトランスフォーマネットワーク内でモデル化することができる。
論文 参考訳(メタデータ) (2020-09-01T09:10:55Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。