論文の概要: Antarlekhaka: A Comprehensive Tool for Multi-task Natural Language
Annotation
- arxiv url: http://arxiv.org/abs/2310.07826v1
- Date: Wed, 11 Oct 2023 19:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 14:03:30.299006
- Title: Antarlekhaka: A Comprehensive Tool for Multi-task Natural Language
Annotation
- Title(参考訳): antarlekhaka: 多タスク自然言語アノテーションのための包括的なツール
- Authors: Hrishikesh Terdalkar (1) and Arnab Bhattacharya (1) ((1) Indian
Institute of Technology Kanpur)
- Abstract要約: Antarlekhakaは自然言語処理に関連する一連のタスクを手作業でアノテーションするツールである。
このツールはUnicode互換で、言語に依存しない、Webデプロイ可能で、複数の同時アノテータによる分散アノテーションをサポートする。
サンスクリット語とベンガル語という2つの異なる言語での2つの実生活のアノテーションタスクに使用されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the primary obstacles in the advancement of Natural Language
Processing (NLP) technologies for low-resource languages is the lack of
annotated datasets for training and testing machine learning models. In this
paper, we present Antarlekhaka, a tool for manual annotation of a comprehensive
set of tasks relevant to NLP. The tool is Unicode-compatible,
language-agnostic, Web-deployable and supports distributed annotation by
multiple simultaneous annotators. The system sports user-friendly interfaces
for 8 categories of annotation tasks. These, in turn, enable the annotation of
a considerably larger set of NLP tasks. The task categories include two
linguistic tasks not handled by any other tool, namely, sentence boundary
detection and deciding canonical word order, which are important tasks for text
that is in the form of poetry. We propose the idea of sequential annotation
based on small text units, where an annotator performs several tasks related to
a single text unit before proceeding to the next unit. The research
applications of the proposed mode of multi-task annotation are also discussed.
Antarlekhaka outperforms other annotation tools in objective evaluation. It has
been also used for two real-life annotation tasks on two different languages,
namely, Sanskrit and Bengali. The tool is available at
https://github.com/Antarlekhaka/code.
- Abstract(参考訳): 低リソース言語のための自然言語処理(NLP)技術の進歩の大きな障害の1つは、機械学習モデルのトレーニングとテストのための注釈付きデータセットの欠如である。
本稿では,NLPに関連するタスクの包括的セットを手動でアノテーションするAntarlekhakaを提案する。
このツールはUnicode互換で、言語に依存しない、Webデプロイ可能で、複数の同時アノテータによる分散アノテーションをサポートする。
アノテーションタスクの8つのカテゴリに対して,ユーザフレンドリなインターフェースを備える。
これらにより、かなり大きなNLPタスクセットのアノテーションが可能になる。
タスクカテゴリには、他のツールでは処理されない2つの言語的タスク、すなわち文境界の検出と、詩の形をしたテキストにとって重要なタスクである標準語順の決定が含まれる。
本稿では,小文単位に基づく逐次アノテーションの考え方を提案する。アノテーションは1つのテキスト単位に関する複数のタスクを,次の単位に進む前に実行する。
提案手法であるマルチタスクアノテーションの研究応用についても述べる。
Antarlekhakaは客観的評価において他のアノテーションツールよりも優れている。
また、サンスクリット語とベンガル語という2つの異なる言語での2つの実生活のアノテーションタスクにも使用されている。
このツールはhttps://github.com/antarlekhaka/codeで入手できる。
関連論文リスト
- A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - EEVEE: An Easy Annotation Tool for Natural Language Processing [32.111061774093]
簡便さ,効率,使いやすさを重視したアノテーションツールであるEEVEEを提案する。
ブラウザ上で直接動作し(セットアップ不要)、(文字オフセットやタスク固有のフォーマットとは対照的に)タブ分離されたファイルをアノテーションに使用する。
論文 参考訳(メタデータ) (2024-02-05T10:24:40Z) - Thresh: A Unified, Customizable and Deployable Platform for Fine-Grained
Text Evaluation [11.690442820401453]
Threshは、きめ細かい評価のための統一的でカスタマイズ可能な、デプロイ可能なプラットフォームです。
Threshはコミュニティハブを提供する。コミュニティによって作成され、収集される、きめ細かいフレームワークとそれに対応するアノテーションのコレクションをホストする。
Threshは、小さな手動検査から大規模なクラウドソーシングまで、あらゆる規模のアノテーションプロジェクトに対して、複数のオプションを提供している。
論文 参考訳(メタデータ) (2023-08-14T06:09:51Z) - POTATO: The Portable Text Annotation Tool [8.924906491840119]
本稿では,フリーで完全にオープンソースなアノテーションシステムPOTATOを紹介する。
多くのタイプのテキストとマルチモーダルデータのラベル付けをサポートする。
デプロイとアノテータの生産性を最大化するために、簡単に設定できる機能を提供する。
論文 参考訳(メタデータ) (2022-12-16T17:57:41Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - HIT: A Hierarchically Fused Deep Attention Network for Robust Code-mixed
Language Representation [18.136640008855117]
コード混合テキストの堅牢な表現学習法であるHITを提案する。
HITは階層的なトランスフォーマーベースのフレームワークで、単語間の意味的関係をキャプチャする。
ヨーロッパ語(スペイン語)とインド語(ヒンディー語、ベンガル語、タミル語、テルグ語、マラヤラム語)に対するHITの評価は、様々な最先端システムに対する大幅な性能向上を示唆している。
論文 参考訳(メタデータ) (2021-05-30T18:53:33Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - Massive Choice, Ample Tasks (MaChAmp): A Toolkit for Multi-task Learning
in NLP [24.981991538150584]
MaChAmpは、マルチタスク設定におけるコンテキスト化された埋め込みを簡単に微調整するためのツールキットである。
MaChAmpの利点は、フレキシブルな設定オプションと、統一ツールキットで様々な自然言語処理タスクをサポートすることである。
論文 参考訳(メタデータ) (2020-05-29T16:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。