論文の概要: Demo of the Linguistic Field Data Management and Analysis System -- LiFE
- arxiv url: http://arxiv.org/abs/2203.11443v1
- Date: Tue, 22 Mar 2022 03:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 14:01:39.066345
- Title: Demo of the Linguistic Field Data Management and Analysis System -- LiFE
- Title(参考訳): 言語分野データ管理・分析システムのデモ --ライフ-
- Authors: Siddharth Singh and Ritesh Kumar and Shyam Ratan and Sonal Sinha
- Abstract要約: LiFEは、オープンソースのWebベースの言語データ管理および分析アプリケーションである。
ユーザーは語彙項目、文、段落、オーディオ・ビジュアルコンテンツ、リッチ・グロス/アノテーションを保存できる。
対話的で印刷された辞書を生成し、自然言語処理ツールやモデルを訓練し、使用する。
- 参考スコア(独自算出の注目度): 1.2139158398361864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the proposed demo, we will present a new software - Linguistic Field Data
Management and Analysis System - LiFE (https://github.com/kmi-linguistics/life)
- an open-source, web-based linguistic data management and analysis application
that allows for systematic storage, management, sharing and usage of linguistic
data collected from the field. The application allows users to store lexical
items, sentences, paragraphs, audio-visual content with rich glossing /
annotation; generate interactive and print dictionaries; and also train and use
natural language processing tools and models for various purposes using this
data. Since its a web-based application, it also allows for seamless
collaboration among multiple persons and sharing the data, models, etc with
each other.
The system uses the Python-based Flask framework and MongoDB in the backend
and HTML, CSS and Javascript at the frontend. The interface allows creation of
multiple projects that could be shared with the other users. At the backend,
the application stores the data in RDF format so as to allow its release as
Linked Data over the web using semantic web technologies - as of now it makes
use of the OntoLex-Lemon for storing the lexical data and Ligt for storing the
interlinear glossed text and then internally linking it to the other linked
lexicons and databases such as DBpedia and WordNet. Furthermore it provides
support for training the NLP systems using scikit-learn and HuggingFace
Transformers libraries as well as make use of any model trained using these
libraries - while the user interface itself provides limited options for tuning
the system, an externally-trained model could be easily incorporated within the
application; similarly the dataset itself could be easily exported into a
standard machine-readable format like JSON or CSV that could be consumed by
other programs and pipelines.
- Abstract(参考訳): 提案するデモでは、新しいソフトウェアであるlanguageal field data management and analysis system - life(https://github.com/kmi-linguistics/life)を紹介する。これはオープンソースの言語データ管理および分析アプリケーションで、現場から収集された言語データの体系的な保存、管理、共有、利用を可能にする。
このアプリケーションでは、語彙項目、文、段落、豊富な光沢やアノテーションを備えた視聴覚コンテンツ、インタラクティブで印刷された辞書の生成、そして、このデータを使用して様々な目的のために自然言語処理ツールやモデルをトレーニングおよび利用することができる。
Webベースのアプリケーションなので、複数の人とのシームレスなコラボレーションや、データやモデルなどを共有することもできる。
このシステムはPythonベースのFraskフレームワークとバックエンドのMongoDB、フロントエンドのHTML、CSS、JavaScriptを使用している。
インターフェースにより、他のユーザと共有できる複数のプロジェクトを作成することができる。
バックエンドでは、アプリケーションはデータをrdf形式で保存し、セマンティックweb技術を使用してweb上のリンクデータとしてリリースできるようにします - 現時点では、辞書データを格納するためのonlex-lemonと、インターリニアな光沢テキストを格納し、dbpediaやwordnetなどの他のリンクされたレキシコンやデータベースに内部リンクするligtを使っています。
Furthermore it provides support for training the NLP systems using scikit-learn and HuggingFace Transformers libraries as well as make use of any model trained using these libraries - while the user interface itself provides limited options for tuning the system, an externally-trained model could be easily incorporated within the application; similarly the dataset itself could be easily exported into a standard machine-readable format like JSON or CSV that could be consumed by other programs and pipelines.
関連論文リスト
- Statically Contextualizing Large Language Models with Typed Holes [4.180458188910334]
大規模言語モデル(LLM)は、プログラム合成のランドスケープを形変えた。
LLMは適切なコンテキストを持たないため、しばしば壊れたコードを幻覚させる。
本稿では,言語の種類と結合構造との密接な統合が,この文脈化問題に対処できることを実証する。
論文 参考訳(メタデータ) (2024-09-02T03:29:00Z) - Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。
BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。
BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文 参考訳(メタデータ) (2024-06-05T12:45:25Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - Using Document Similarity Methods to create Parallel Datasets for Code
Translation [60.36392618065203]
あるプログラミング言語から別のプログラミング言語へのソースコードの翻訳は、重要で時間を要する作業です。
本稿では、文書類似性手法を用いて、ノイズの多い並列データセットを作成することを提案する。
これらのモデルは、妥当なレベルのノイズに対して、地上の真実に基づいて訓練されたモデルと相容れない性能を示す。
論文 参考訳(メタデータ) (2021-10-11T17:07:58Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Automated Source Code Generation and Auto-completion Using Deep
Learning: Comparing and Discussing Current Language-Model-Related Approaches [0.0]
本稿では、異なるディープラーニングアーキテクチャを比較して、プログラミングコードに基づく言語モデルを作成し、使用する。
それぞれのアプローチのさまざまな長所と短所と、言語モデルを評価したり、実際のプログラミングコンテキストでそれらを適用するためのギャップについて論じる。
論文 参考訳(メタデータ) (2020-09-16T15:17:04Z) - Efficient Deployment of Conversational Natural Language Interfaces over
Databases [45.52672694140881]
本稿では、自然言語からクエリ言語への機械学習モデルを開発するためのトレーニングデータセット収集を高速化する新しい手法を提案する。
本システムでは,対話セッションを定義した対話型多言語データを生成することができる。
論文 参考訳(メタデータ) (2020-05-31T19:16:27Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。