論文の概要: Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media
- arxiv url: http://arxiv.org/abs/2004.02845v2
- Date: Fri, 31 Jul 2020 15:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 07:29:35.987871
- Title: Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media
- Title(参考訳): CLARIAHのオントロジー:歴史・言語・メディアの相互運用性を目指して
- Authors: Albert Mero\~no-Pe\~nuela, Victor de Boer, Marieke van Erp, Richard
Zijdeman, Rick Mourits, Willem Melder, Auke Rijpma, Ruben Schalk
- Abstract要約: デジタル人文科学の最も重要な目標の1つは、研究者に新しい研究質問のためのデータとツールを提供することである。
FAIRの原則は、データが必要な状態として、これらのフレームワークを提供する。 Findable は、さまざまなソースに散らばっているため、しばしば参照可能 アクセス可能 いくつかはオフラインやペイウォールの後方にあるかもしれない 相互運用可能 標準的な知識表現フォーマットを使用して、共有される。
オランダの国立プロジェクト CLARIAH に開発・統合されたツールについて述べる。
- 参考スコア(独自算出の注目度): 0.05277024349608833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most important goals of digital humanities is to provide
researchers with data and tools for new research questions, either by
increasing the scale of scholarly studies, linking existing databases, or
improving the accessibility of data. Here, the FAIR principles provide a useful
framework as these state that data needs to be: Findable, as they are often
scattered among various sources; Accessible, since some might be offline or
behind paywalls; Interoperable, thus using standard knowledge representation
formats and shared vocabularies; and Reusable, through adequate licensing and
permissions. Integrating data from diverse humanities domains is not trivial,
research questions such as "was economic wealth equally distributed in the 18th
century?", or "what are narratives constructed around disruptive media
events?") and preparation phases (e.g. data collection, knowledge organisation,
cleaning) of scholars need to be taken into account. In this chapter, we
describe the ontologies and tools developed and integrated in the Dutch
national project CLARIAH to address these issues across datasets from three
fundamental domains or "pillars" of the humanities (linguistics, social and
economic history, and media studies) that have paradigmatic data
representations (textual corpora, structured data, and multimedia). We
summarise the lessons learnt from using such ontologies and tools in these
domains from a generalisation and reusability perspective.
- Abstract(参考訳): デジタル人文科学の最も重要な目標の1つは、研究者に新たな研究課題のためのデータとツールを提供することである。
ここでfairの原則は、データが必要な場合に有用なフレームワークを提供する: findable, 様々なソースに散在することが多い; アクセス可能; 一部はオフラインまたはペイウォールの背後にあるのでアクセス可能; 相互運用可能; 標準の知識表現形式と共有語彙を使用する; 適切なライセンスと許可によって再利用する。
多様な人文科学領域からのデータの統合は簡単ではなく、「経済の富は18世紀に均等に分配されたか?」「破壊的なメディアイベントを中心に構築された物語は何か?」といった研究課題や、学者の準備段階(データ収集、知識組織、清掃など)を考慮する必要がある。
本章では,オランダ国立プロジェクト clariah で開発・統合されたオントロジーとツールについて記述し,パラダイム的データ表現(文体コーパス,構造化データ,マルチメディア)を持つ人文科学(言語学,社会・経済史,メディア研究)の「ピラーズ」という3つの基本領域のデータセットから,これらの問題に対処した。
このようなオントロジーとツールを用いて,一般化と再利用性の観点から学んだ教訓を要約する。
関連論文リスト
- Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and
Understanding -- A Survey [17.765458116029734]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - Federated Learning for Generalization, Robustness, Fairness: A Survey
and Benchmark [55.898771405172155]
フェデレートラーニングは、異なる当事者間のプライバシー保護コラボレーションのための有望なパラダイムとして登場した。
我々は,連合学習研究の重要かつ最近の展開を体系的に概観する。
論文 参考訳(メタデータ) (2023-11-12T06:32:30Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - The Ethics of Social Media Analytics in Migration Studies [1.3651461111887733]
本章では、ソーシャルメディアプラットフォームを通じた移住研究の倫理的考察の概要について述べる。
関連する学術文献に基づいて,過去20年間にソーシャルメディア研究に関連する倫理的問題がどのように議論されてきたかを検討する。
この概要は、マイグレーションに関連する文脈におけるソーシャルメディア研究に関連する倫理的課題を考慮し、緩和するための理論的および実践的なツールを研究者に提供するために設計されている。
論文 参考訳(メタデータ) (2023-02-28T08:39:22Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Studying Up Machine Learning Data: Why Talk About Bias When We Mean
Power? [0.0]
我々は、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じている。
MLデータセットを形作るデータワーカーの労働にかかわる企業力と市場衝動に注目します。
論文 参考訳(メタデータ) (2021-09-16T17:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。