Fugu-MT 論文翻訳(概要): LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models

論文の概要: LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models

arxiv url: http://arxiv.org/abs/2309.00789v1
Date: Sat, 2 Sep 2023 01:45:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 01:05:28.026219
Title: LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models
Title（参考訳）: LinkTransformer: トランスフォーマー言語モデルによるレコードリンクのための統一パッケージ
Authors: Abhishek Arora, Melissa Dell
Abstract要約: LinkTransformerは、人気のある文字列マッチングメソッドの親しみやすさと使いやすさを、ディープラーニングに拡張することを目的としている。コアとなるのは、4行のコードでリンクを記録するためにトランスフォーマーモデルを適用する、既製のツールキットである。 LinkTransformerには、トレーニング済みのトランスフォーマーセマンティック類似モデルの豊富なリポジトリが含まれている。
参考スコア（独自算出の注目度）: 2.44755919161855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Linking information across sources is fundamental to a variety of analyses in social science, business, and government. While large language models (LLMs) offer enormous promise for improving record linkage in noisy datasets, in many domains approximate string matching packages in popular softwares such as R and Stata remain predominant. These packages have clean, simple interfaces and can be easily extended to a diversity of languages. Our open-source package LinkTransformer aims to extend the familiarity and ease-of-use of popular string matching methods to deep learning. It is a general purpose package for record linkage with transformer LLMs that treats record linkage as a text retrieval problem. At its core is an off-the-shelf toolkit for applying transformer models to record linkage with four lines of code. LinkTransformer contains a rich repository of pre-trained transformer semantic similarity models for multiple languages and supports easy integration of any transformer language model from Hugging Face or OpenAI. It supports standard functionality such as blocking and linking on multiple noisy fields. LinkTransformer APIs also perform other common text data processing tasks, e.g., aggregation, noisy de-duplication, and translation-free cross-lingual linkage. Importantly, LinkTransformer also contains comprehensive tools for efficient model tuning, to facilitate different levels of customization when off-the-shelf models do not provide the required accuracy. Finally, to promote reusability, reproducibility, and extensibility, LinkTransformer makes it easy for users to contribute their custom-trained models to its model hub. By combining transformer language models with intuitive APIs that will be familiar to many users of popular string matching packages, LinkTransformer aims to democratize the benefits of LLMs among those who may be less familiar with deep learning frameworks.
Abstract（参考訳）: 情報源間で情報をリンクすることは、社会科学、ビジネス、政府における様々な分析の基礎である。大規模な言語モデル(llms)は、ノイズの多いデータセットにおけるレコードリンクを改善するという大きな期待を抱いているが、rやstataのような一般的なソフトウェアでは、多くのドメインで近似文字列マッチングパッケージが主流である。これらのパッケージはクリーンでシンプルなインタフェースを持ち、様々な言語に容易に拡張できる。当社のオープンソースパッケージLinkTransformerは,一般的な文字列マッチング手法の親しみやすさと使いやすさを,ディープラーニングに拡張することを目的としています。これは、レコードリンクをテキスト検索問題として扱うトランスフォーマーLSMとのレコードリンクのための汎用パッケージである。コアとなるのは、4行のコードでリンクを記録するためにトランスフォーマーモデルを適用する、既製のツールキットである。 LinkTransformerには、複数の言語用に事前訓練されたトランスフォーマーセマンティック類似モデルの豊富なリポジトリが含まれており、Hugging FaceやOpenAIからのトランスフォーマー言語モデルの統合が容易である。複数のノイズフィールドのブロッキングやリンクなどの標準的な機能をサポートしている。 LinkTransformer APIは、アグリゲーション、ノイズ非重複、翻訳不要な言語間リンクなど、他の一般的なテキストデータ処理タスクも実行する。重要なのは、LinkTransformerには、効率的なモデルチューニングのための包括的なツールも含まれていることだ。最後に、再利用性、再現性、拡張性を促進するために、linktransformerはユーザが独自のトレーニングモデルを簡単にmodel hubにコントリビュートできるようにする。 LinkTransformerは、トランスフォーマー言語モデルと、人気のある文字列マッチングパッケージの多くのユーザになじみのある直感的なAPIを組み合わせることで、ディープラーニングフレームワークに馴染みのない人たちの間で、LLMのメリットを民主化することを目指している。

関連論文リスト

Contextually Guided Transformers via Low-Rank Adaptation [14.702057924366345]
変換器をベースとした大規模言語モデル(LLM)は、テキスト処理において優れているが、特殊な振る舞いのプロンプトに依存しているため、計算オーバーヘッドが生じる。本稿では,モデル重みにコンテキストをエンコードすることで,明示的なプロンプトの必要性を解消するトランスフォーマーアーキテクチャの修正を提案する。
論文参考訳（メタデータ） (2025-06-06T01:34:39Z)
Demystifying the Communication Characteristics for Distributed Transformer Models [2.849208476795592]
本稿ではトランスモデルの通信挙動について検討する。我々はGPTに基づく言語モデルをトランスフォーマーアーキテクチャの汎用性によるケーススタディとして用いている。高いレベルでは、我々の分析により、より小さなメッセージポイントツーポイント通信を最適化する必要性が明らかになる。
論文参考訳（メタデータ） (2024-08-19T17:54:29Z)
Dependency Transformer Grammars: Integrating Dependency Structures into Transformer Language Models [42.46104516313823]
依存性変換文法(Dependency Transformer Grammars、DTG)は、依存関係ベースの帰納バイアスを持つトランスフォーマー言語モデルの新しいクラスである。 DTGは制約された注意パターンで依存性遷移システムをシミュレートする。 Transformer言語モデルベースラインと同等のパープレキシティを維持しながら、より優れた一般化を実現する。
論文参考訳（メタデータ） (2024-07-24T16:38:38Z)
Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。 CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文参考訳（メタデータ） (2023-08-13T06:12:00Z)
Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-20T12:10:29Z)
Trankit: A Light-Weight Transformer-based Toolkit for Multilingual Natural Language Processing [22.38792093462942]
Trankitは多言語自然言語処理のための軽量トランスフォーマーベースのツールキット 100言語以上の基本的なNLPタスクのためのトレーニング可能なパイプラインと56言語のための90の事前トレーニングパイプラインを提供する。 Trankitは、文のセグメンテーション、音声の一部タグ付け、形態的特徴タグ付け、依存性解析よりも、以前の多言語NLPパイプラインを大幅に上回る。
論文参考訳（メタデータ） (2021-01-09T04:55:52Z)
XLM-T: Scaling up Multilingual Machine Translation with Pretrained Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文参考訳（メタデータ） (2020-12-31T11:16:51Z)
Parameter Efficient Multimodal Transformers for Video Representation Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文参考訳（メタデータ） (2020-12-08T00:16:13Z)
Multi-channel Transformers for Multi-articulatory Sign Language Translation [59.38247587308604]
本稿では,多調な手話翻訳課題に取り組み,新しいマルチチャネルトランスフォーマアーキテクチャを提案する。提案アーキテクチャにより、異なる手話調節間の文脈内関係をトランスフォーマネットワーク内でモデル化することができる。
論文参考訳（メタデータ） (2020-09-01T09:10:55Z)
Segatron: Segment-Aware Transformer for Language Modeling and Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。 WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文参考訳（メタデータ） (2020-04-30T17:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。