論文の概要: Provenance for Linguistic Corpora Through Nanopublications
- arxiv url: http://arxiv.org/abs/2006.06341v2
- Date: Mon, 2 Nov 2020 07:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:49:49.708819
- Title: Provenance for Linguistic Corpora Through Nanopublications
- Title(参考訳): ナノパブリケーションによる言語コーパスの出現
- Authors: Timo Lek, Anna de Groot, Tobias Kuhn, Roser Morante
- Abstract要約: 計算言語学の研究は、新しいツールや方法論を訓練し、テストするためのテキストコーパスに依存している。
注釈付き言語情報が多く存在するが、これらのコーパスは重要な手作業なしでは相互運用できないことが多い。
本稿では、イベントアノテートコーパスのケーススタディと、ナノパブリケーションの形で、より相互運用可能な新しいデータ表現を作成することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 0.22940141855172028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in Computational Linguistics is dependent on text corpora for
training and testing new tools and methodologies. While there exists a plethora
of annotated linguistic information, these corpora are often not interoperable
without significant manual work. Moreover, these annotations might have evolved
into different versions, making it challenging for researchers to know the
data's provenance. This paper addresses this issue with a case study on event
annotated corpora and by creating a new, more interoperable representation of
this data in the form of nanopublications. We demonstrate how linguistic
annotations from separate corpora can be reliably linked from the start, and
thereby be accessed and queried as if they were a single dataset. We describe
how such nanopublications can be created and demonstrate how SPARQL queries can
be performed to extract interesting content from the new representations. The
queries show that information of multiple corpora can be retrieved more easily
and effectively because the information of different corpora is represented in
a uniform data format.
- Abstract(参考訳): 計算言語学の研究は、新しいツールや方法論を訓練し、テストするためにテキストコーパスに依存する。
多数の注釈付き言語情報が存在するが、これらのコーパスはしばしば重要な手作業なしでは相互運用できない。
さらに、これらのアノテーションは異なるバージョンに進化した可能性があり、研究者がデータの出所を知ることは困難である。
本稿では、イベントアノテートコーパスのケーススタディと、ナノパブリケーションの形で、より相互運用可能な新しいデータ表現を作成することで、この問題に対処する。
分離したコーパスからの言語アノテーションが最初から確実にリンク可能であることを実証し、単一のデータセットであるかのようにアクセスおよび問い合わせを行う。
このようなナノパブリケーションをどのように作成し、新しい表現から興味深いコンテンツを抽出するためにSPARQLクエリをどのように実行できるかを示す。
複数のコーパスの情報が一様データ形式で表現されているため、複数のコーパスの情報をより簡単かつ効果的に検索できることを示す。
関連論文リスト
- Synthetic continued pretraining [29.6872772403251]
ドメイン固有文書の小さなコーパス上での合成継続事前学習を提案する。
合成データ拡張アルゴリズムであるEntiGraphでこの提案をインスタンス化する。
合成データ拡張が、よりデータ効率のよい学習を可能にするために、どのように知識を"再編成"できるかを示す。
論文 参考訳(メタデータ) (2024-09-11T17:21:59Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - Combining pre-trained language models and structured knowledge [9.521634184008574]
トランスフォーマーベースの言語モデルは、様々なNLPベンチマークにおいて、最先端の性能を実現している。
これらのモデルに知識グラフのような構造化情報を統合することは困難であることが証明されている。
構造化された知識を現在の言語モデルに統合し、課題を決定するための様々なアプローチについて検討し、構造化された情報ソースと非構造化された情報ソースの両方を活用する機会について検討する。
論文 参考訳(メタデータ) (2021-01-28T21:54:03Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Observations on Annotations [0.5175994976508882]
Hypertext、Computational Linguistics、Language Technology、Artificial Intelligence、Open Scienceなどだ。
複雑さの観点では、それらは自明なものから高度に洗練されたものまで、成熟度の観点からは実験的なものから標準化されたものまで様々である。
例えば、テキストドキュメントのような主要な研究データは、異なるレイヤに同時にアノテートすることができる。
論文 参考訳(メタデータ) (2020-04-21T20:29:50Z) - LowResourceEval-2019: a shared task on morphological analysis for
low-resource languages [0.30998852056211795]
本稿は、ロシアの言語、すなわち、イブキ語、カレリア語、セルクプ語、ヴェプス語に対する形態学的分析に関する最初の共有課題の結果について述べる。
タスクには、形態分析、単語フォーム生成、形態素セグメンテーションが含まれる。
この記事では、共有タスク用に準備されたデータセットを説明し、参加者のソリューションの分析を含む。
論文 参考訳(メタデータ) (2020-01-30T12:47:50Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。