論文の概要: Making Metadata Fit for Next Generation Language Technology Platforms:
The Metadata Schema of the European Language Grid
- arxiv url: http://arxiv.org/abs/2003.13236v1
- Date: Mon, 30 Mar 2020 06:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 08:22:45.958802
- Title: Making Metadata Fit for Next Generation Language Technology Platforms:
The Metadata Schema of the European Language Grid
- Title(参考訳): 次世代言語技術プラットフォームのためのメタデータフィットを作る: 欧州言語グリッドのメタデータスキーマ
- Authors: Penny Labropoulou and Katerina Gkirtzou and Maria Gavriilidou and
Miltos Deligiannis and Dimitrios Galanis and Stelios Piperidis and Georg Rehm
and Maria Berger and Val\'erie Mapelli and Micka\"el Rigault and Victoria
Arranz and Khalid Choukri and Gerhard Backfried and Jos\'e Manuel G\'omez
P\'erez and Andres Garcia Silva
- Abstract要約: メタデータは、デジタル資産の要素管理と利用を促進する重要な要素として現れてきた。
European Language Grid Platformは、ヨーロッパにおけるLanguage Technologyの主要なマーケットプレースとハブを目指している。
- 参考スコア(独自算出の注目度): 0.8074509995682542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current scientific and technological landscape is characterised by the
increasing availability of data resources and processing tools and services. In
this setting, metadata have emerged as a key factor facilitating management,
sharing and usage of such digital assets. In this paper we present ELG-SHARE, a
rich metadata schema catering for the description of Language Resources and
Technologies (processing and generation services and tools, models, corpora,
term lists, etc.), as well as related entities (e.g., organizations, projects,
supporting documents, etc.). The schema powers the European Language Grid
platform that aims to be the primary hub and marketplace for industry-relevant
Language Technology in Europe. ELG-SHARE has been based on various metadata
schemas, vocabularies, and ontologies, as well as related recommendations and
guidelines.
- Abstract(参考訳): 現在の科学的および技術的展望は、データリソースや処理ツール、サービスの増加によって特徴づけられる。
この設定では、このようなデジタル資産の管理、共有、利用を促進する重要な要素としてメタデータが登場している。
本稿では,言語リソースと技術(処理・生成サービス,ツール,モデル,コーパス,用語リストなど)と関連するエンティティ(組織,プロジェクト,支援文書など)を記述するための,リッチなメタデータスキーマであるelg-shareを提案する。
このスキーマは、ヨーロッパにおける産業関連言語技術のハブとマーケットプレースを目指して、欧州言語グリッドプラットフォームを支えている。
ELG-SHAREは様々なメタデータスキーマ、語彙、オントロジー、関連する推奨やガイドラインに基づいている。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - Generation of Asset Administration Shell with Large Language Model Agents: Toward Semantic Interoperability in Digital Twins in the Context of Industry 4.0 [0.6749750044497732]
本研究は,デジタル双生児におけるセマンティック・インターオペラビリティを実現するための新しいアプローチを提案する。
業界 4.0 におけるデジタル双対モデルとしてアセット管理シェル (AAS) の作成を支援する。
論文 参考訳(メタデータ) (2024-03-25T21:37:30Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - Data-Driven Approach for Formality-Sensitive Machine Translation:
Language-Specific Handling and Synthetic Data Generation [5.536220901048185]
本稿では,4つの言語に固有の言語特性を取り入れた,形式感性機械翻訳(FSMT)のためのデータ駆動型手法を提案する。
提案手法は,1)言語固有のデータハンドリング,2)大規模言語モデルと経験的プロンプトエンジニアリングを用いた合成データ生成という,2つの中核戦略に重点を置いている。
論文 参考訳(メタデータ) (2023-06-26T08:45:47Z) - LAVIS: A Library for Language-Vision Intelligence [98.88477610704938]
LAVISは、LAnguage-VISionの研究と応用のためのオープンソースライブラリである。
最先端の画像言語、ビデオ言語モデル、一般的なデータセットに容易にアクセスできる統一インターフェースを備えている。
論文 参考訳(メタデータ) (2022-09-15T18:04:10Z) - Open Terminology Management and Sharing Toolkit for Federation of
Terminology Databases [2.5200727733264663]
EuroTermBank Toolkitはオープンな用語管理ソリューションである。
組織は、用語を管理して検索し、用語コレクションを作成し、組織内外で共有することができる。
連合データベースで収集されたデータは、ヨーロッパ最大の多言語用語資源であるEuroTermBankと自動的に共有される。
論文 参考訳(メタデータ) (2022-07-14T08:27:17Z) - Data Governance in the Age of Large-Scale Data-Driven Language
Technology [79.92626780294258]
この研究は、利害関係者、価値観、権利間のデータ管理を組織化しようとする、グローバル言語データガバナンスへのアプローチを提案する。
現在提案するフレームワークは、言語データに焦点を当てた多政党の国際ガバナンス構造であり、その作業を支援するために必要な技術および組織ツールを取り入れています。
論文 参考訳(メタデータ) (2022-05-04T00:44:35Z) - Documenting Geographically and Contextually Diverse Data Sources: The
BigScience Catalogue of Language Data and Resources [17.69148305999049]
我々はBigScienceイニシアチブの一環として、ドキュメントファーストで人間中心のデータ収集プロジェクトのための方法論を提示する。
我々は,潜在的なデータソースのメタデータを収集する,地理的に多様な対象言語群を同定する。
この取り組みを構築するために,組織化された公開ハッカソンを通じてメタデータを収集する支援ツールとして,オンラインカタログを開発した。
論文 参考訳(メタデータ) (2022-01-25T03:05:23Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。
我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。
実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2021-02-20T03:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。