論文の概要: SenTag: a Web-based Tool for Semantic Annotation of Textual Documents
- arxiv url: http://arxiv.org/abs/2110.15062v1
- Date: Thu, 16 Sep 2021 08:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 20:51:55.924600
- Title: SenTag: a Web-based Tool for Semantic Annotation of Textual Documents
- Title(参考訳): SenTag: テキスト文書のセマンティックアノテーションのためのWebベースのツール
- Authors: Andrea Loreggia, Simone Mosco, Alberto Zerbinati
- Abstract要約: SenTagはテキスト文書のセマンティックアノテーションに焦点を当てたウェブベースのツールである。
アプリケーションの主な目標は、タグ付けプロセスの容易化と、出力ドキュメントのエラーの削減と回避である。
また、テキストコーパスに係わるアノテータの合意のレベルを評価することもできる。
- 参考スコア(独自算出の注目度): 4.910379177401659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present SenTag, a lightweight web-based tool focused on
semantic annotation of textual documents. The platform allows multiple users to
work on a corpus of documents. The tool enables to tag a corpus of documents
through an intuitive and easy-to-use user interface that adopts the Extensible
Markup Language (XML) as output format. The main goal of the application is
two-fold: facilitating the tagging process and reducing or avoiding for errors
in the output documents. Moreover, it allows to identify arguments and other
entities that are used to build an arguments graph. It is also possible to
assess the level of agreement of annotators working on a corpus of text.
- Abstract(参考訳): 本研究では,テキスト文書のセマンティックアノテーションに着目した軽量なWebツールであるSenTagを紹介する。
このプラットフォームでは、複数のユーザーが文書のコーパスで作業できる。
このツールは、XML(Extensible Markup Language)を出力フォーマットとして採用した直感的で使いやすいユーザインターフェースを通じて、ドキュメントのコーパスをタグ付けすることができる。
アプリケーションの主な目標は2つある: タグ付けプロセスを容易にし、出力されたドキュメントのエラーを低減または回避する。
さらに、引数グラフを構築するために使用される引数や他のエンティティを識別することができる。
また、テキストのコーパスに取り組んでいる注釈者の合意レベルを評価することもできる。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Magic Markup: Maintaining Document-External Markup with an LLM [1.0538052824177144]
修正プログラムをタグ付けし、リッチなアノテーションが進化するにつれて自動的にコードに従うことができるシステムを提案する。
我々のシステムはベンチマークで90%の精度を達成し、文書のタグを1タグあたり5秒の速さで並列に置き換えることができる。
改善の余地は残っていますが、アプリケーションのさらなる探索を正当化するのに十分なパフォーマンスが得られています。
論文 参考訳(メタデータ) (2024-03-06T05:40:31Z) - WordScape: a Pipeline to extract multilingual, visually rich Documents
with Layout Annotations from Web Crawl Data [13.297444760076406]
本稿では,学際的,多言語的コーパス作成のための新しいパイプラインであるWordScapeを紹介する。
WordScapeはWebから取得したWordドキュメントのオープンXML構造を解析する。
文化的にも言語的にも多様なドキュメントページを提供し、自然な意味構造と高品質なテキストを提供する。
論文 参考訳(メタデータ) (2023-12-15T20:28:31Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Multilevel Text Alignment with Cross-Document Attention [59.76351805607481]
既存のアライメントメソッドは、1つの事前定義されたレベルで動作します。
本稿では,文書を文書間注目要素で表現するための階層的アテンションエンコーダを予め確立した新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T02:52:28Z) - Method for Customizable Automated Tagging: Addressing the Problem of
Over-tagging and Under-tagging Text Documents [0.0]
著者が提供するタグを使用して、新しいドキュメントのタグを予測すると、タグのオーバージェネレーションが発生することが多い。
本稿では,大規模文書コーパスに広く適用可能な,普遍的なタグセットを生成する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:28:42Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。