論文の概要: MaintNet: A Collaborative Open-Source Library for Predictive Maintenance
Language Resources
- arxiv url: http://arxiv.org/abs/2005.12443v1
- Date: Mon, 25 May 2020 23:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 06:05:26.535819
- Title: MaintNet: A Collaborative Open-Source Library for Predictive Maintenance
Language Resources
- Title(参考訳): maintnet: メンテナンス言語リソースを予測するための共同オープンソースライブラリ
- Authors: Farhad Akhbardeh, Travis Desell, Marcos Zampieri
- Abstract要約: MaintNetは、技術的およびドメイン固有の言語データセットのオープンソースライブラリである。
MaintNetは航空、自動車、施設の領域からの新しいログブックデータを提供している。
- 参考スコア(独自算出の注目度): 13.976220447055521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maintenance record logbooks are an emerging text type in NLP. They typically
consist of free text documents with many domain specific technical terms,
abbreviations, as well as non-standard spelling and grammar, which poses
difficulties to NLP pipelines trained on standard corpora. Analyzing and
annotating such documents is of particular importance in the development of
predictive maintenance systems, which aim to provide operational efficiencies,
prevent accidents and save lives. In order to facilitate and encourage research
in this area, we have developed MaintNet, a collaborative open-source library
of technical and domain-specific language datasets. MaintNet provides novel
logbook data from the aviation, automotive, and facilities domains along with
tools to aid in their (pre-)processing and clustering. Furthermore, it provides
a way to encourage discussion on and sharing of new datasets and tools for
logbook data analysis.
- Abstract(参考訳): 保守記録ログブックは、NLPの新たなテキストタイプである。
典型的には、多くのドメイン固有の技術的用語、略語、および非標準スペルと文法を持つ自由テキスト文書から成り、標準コーパスで訓練されたNLPパイプラインに困難をもたらす。
このような文書の分析・注釈は, 運用効率の向上, 事故防止, 命を救うことを目的とした, 予測保守システムの開発において特に重要である。
この分野の研究の促進と促進を目的として,技術およびドメイン固有言語データセットのオープンソースライブラリであるMaintNetを開発した。
MaintNetは、航空、自動車、施設ドメインからの新しいログブックデータと、前処理とクラスタリングを支援するツールを提供している。
さらに、ログブックデータ分析のための新しいデータセットとツールの議論と共有を促進する手段を提供する。
関連論文リスト
- Empowering Domain-Specific Language Models with Graph-Oriented Databases: A Paradigm Shift in Performance and Model Maintenance [0.0]
私たちの作業は、特定のアプリケーションドメインに固有の、大量の短いテキストドキュメントを管理し、処理する必要があることによるものです。
ドメイン固有の知識と専門知識を活用することで、このアプローチは、これらのドメイン内の実データを形成することを目的としています。
我々の研究は、ドメイン固有言語モデルとグラフ指向データベースのパートナーシップの変革の可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T19:02:09Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization [0.0]
構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
論文 参考訳(メタデータ) (2023-10-02T07:05:19Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Transforming Unstructured Text into Data with Context Rule Assisted
Machine Learning (CRAML) [0.0]
コンテキストルール支援機械学習(CRAML)法は、大量の非構造化テキストの正確な再現可能なラベル付けを可能にする。
CRAMLにより、ドメインの専門家はドキュメントコーパス内に埋もれている珍しい構造にアクセスすることができる。
CRAMLのユースケースは3つある: テキストデータから得られた最近の管理文献を分析し、プロプライエタリな求人広告テキストの分析から新しい機械学習モデルを記述・リリースし、フランチャイズ文書の公開コーパスから社会的・経済的関心の発見を示す。
論文 参考訳(メタデータ) (2023-01-20T13:12:35Z) - LAVIS: A Library for Language-Vision Intelligence [98.88477610704938]
LAVISは、LAnguage-VISionの研究と応用のためのオープンソースライブラリである。
最先端の画像言語、ビデオ言語モデル、一般的なデータセットに容易にアクセスできる統一インターフェースを備えている。
論文 参考訳(メタデータ) (2022-09-15T18:04:10Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - A Flexible Clustering Pipeline for Mining Text Intentions [6.599344783327053]
Verint Intent Manager内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成します。
言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合する。
VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは高品質な結果を生成する。
論文 参考訳(メタデータ) (2022-02-01T22:54:18Z) - Case Studies on using Natural Language Processing Techniques in Customer
Relationship Management Software [0.0]
我々は,対応するテキストコーパスを用いて単語埋め込みを訓練し,これらの単語埋め込みはデータマイニングだけでなく,RNNアーキテクチャにも利用できることを示した。
その結果、CRMで構造化されたテキストデータは、非常に貴重な情報をマイニングするのに使えることが証明された。
論文 参考訳(メタデータ) (2021-06-09T16:07:07Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。