論文の概要: LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models
- arxiv url: http://arxiv.org/abs/2309.00789v2
- Date: Mon, 24 Jun 2024 21:01:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 21:09:52.022525
- Title: LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models
- Title(参考訳): LinkTransformer: トランスフォーマー言語モデルによるレコードリンクのための統一パッケージ
- Authors: Abhishek Arora, Melissa Dell,
- Abstract要約: LinkTransformerは、人気のある文字列マッチングメソッドの親しみやすさと使いやすさを、ディープラーニングに拡張することを目的としている。
コアとなるのは、4行のコードでリンクを記録するためにトランスフォーマーモデルを適用する、既製のツールキットである。
LinkTransformerには、トレーニング済みのトランスフォーマーセマンティック類似モデルの豊富なリポジトリが含まれている。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linking information across sources is fundamental to a variety of analyses in social science, business, and government. While large language models (LLMs) offer enormous promise for improving record linkage in noisy datasets, in many domains approximate string matching packages in popular softwares such as R and Stata remain predominant. These packages have clean, simple interfaces and can be easily extended to a diversity of languages. Our open-source package LinkTransformer aims to extend the familiarity and ease-of-use of popular string matching methods to deep learning. It is a general purpose package for record linkage with transformer LLMs that treats record linkage as a text retrieval problem. At its core is an off-the-shelf toolkit for applying transformer models to record linkage with four lines of code. LinkTransformer contains a rich repository of pre-trained transformer semantic similarity models for multiple languages and supports easy integration of any transformer language model from Hugging Face or OpenAI. It supports standard functionality such as blocking and linking on multiple noisy fields. LinkTransformer APIs also perform other common text data processing tasks, e.g., aggregation, noisy de-duplication, and translation-free cross-lingual linkage. Importantly, LinkTransformer also contains comprehensive tools for efficient model tuning, to facilitate different levels of customization when off-the-shelf models do not provide the required accuracy. Finally, to promote reusability, reproducibility, and extensibility, LinkTransformer makes it easy for users to contribute their custom-trained models to its model hub. By combining transformer language models with intuitive APIs that will be familiar to many users of popular string matching packages, LinkTransformer aims to democratize the benefits of LLMs among those who may be less familiar with deep learning frameworks.
- Abstract(参考訳): 情報源間で情報をリンクすることは、社会科学、ビジネス、政府における様々な分析の基礎である。
大規模言語モデル(LLM)は、ノイズの多いデータセットにおけるレコードリンクを改善するための大きな保証を提供するが、RやStaのような一般的なソフトウェアにおける文字列マッチングパッケージに近い多くの領域では、依然として支配的である。
これらのパッケージはクリーンでシンプルなインタフェースを持ち、様々な言語に容易に拡張できる。
当社のオープンソースパッケージLinkTransformerは,一般的な文字列マッチング手法の親しみやすさと使いやすさを,ディープラーニングに拡張することを目的としています。
これは、レコードリンクをテキスト検索問題として扱うトランスフォーマーLLMとのレコードリンクのための汎用パッケージである。
コアとなるのは、4行のコードでリンクを記録するためにトランスフォーマーモデルを適用する、既製のツールキットである。
LinkTransformerには、複数の言語用に事前訓練されたトランスフォーマーセマンティック類似モデルの豊富なリポジトリが含まれており、Hugging FaceやOpenAIからのトランスフォーマー言語モデルの統合が容易である。
複数のノイズフィールドでのブロッキングやリンクといった標準的な機能をサポートしている。
LinkTransformer APIは、他の一般的なテキストデータ処理タスク、例えばアグリゲーション、ノイズ非重複、翻訳不要な言語間リンクも実行する。
重要なのは、LinkTransformerには、効率的なモデルチューニングのための包括的なツールも含まれていることだ。
最後に、再利用性、再現性、拡張性を促進するために、LinkTransformerはユーザーがカスタムトレーニングされたモデルをモデルハブに簡単にコントリビュートできるようにする。
LinkTransformerは、トランスフォーマー言語モデルと、人気のある文字列マッチングパッケージの多くのユーザになじみのある直感的なAPIを組み合わせることで、ディープラーニングフレームワークに馴染みのない人たちの間で、LLMのメリットを民主化することを目指している。
関連論文リスト
- Dependency Transformer Grammars: Integrating Dependency Structures into Transformer Language Models [42.46104516313823]
依存性変換文法(Dependency Transformer Grammars、DTG)は、依存関係ベースの帰納バイアスを持つトランスフォーマー言語モデルの新しいクラスである。
DTGは制約された注意パターンで依存性遷移システムをシミュレートする。
Transformer言語モデルベースラインと同等のパープレキシティを維持しながら、より優れた一般化を実現する。
論文 参考訳(メタデータ) (2024-07-24T16:38:38Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。
この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。
我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T12:10:29Z) - Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。
対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-12-01T17:06:39Z) - Trankit: A Light-Weight Transformer-based Toolkit for Multilingual
Natural Language Processing [22.38792093462942]
Trankitは多言語自然言語処理のための軽量トランスフォーマーベースのツールキット
100言語以上の基本的なNLPタスクのためのトレーニング可能なパイプラインと56言語のための90の事前トレーニングパイプラインを提供する。
Trankitは、文のセグメンテーション、音声の一部タグ付け、形態的特徴タグ付け、依存性解析よりも、以前の多言語NLPパイプラインを大幅に上回る。
論文 参考訳(メタデータ) (2021-01-09T04:55:52Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Multi-channel Transformers for Multi-articulatory Sign Language
Translation [59.38247587308604]
本稿では,多調な手話翻訳課題に取り組み,新しいマルチチャネルトランスフォーマアーキテクチャを提案する。
提案アーキテクチャにより、異なる手話調節間の文脈内関係をトランスフォーマネットワーク内でモデル化することができる。
論文 参考訳(メタデータ) (2020-09-01T09:10:55Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。