論文の概要: Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media
- arxiv url: http://arxiv.org/abs/2004.02845v2
- Date: Fri, 31 Jul 2020 15:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 07:29:35.987871
- Title: Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media
- Title(参考訳): CLARIAHのオントロジー:歴史・言語・メディアの相互運用性を目指して
- Authors: Albert Mero\~no-Pe\~nuela, Victor de Boer, Marieke van Erp, Richard
Zijdeman, Rick Mourits, Willem Melder, Auke Rijpma, Ruben Schalk
- Abstract要約: デジタル人文科学の最も重要な目標の1つは、研究者に新しい研究質問のためのデータとツールを提供することである。
FAIRの原則は、データが必要な状態として、これらのフレームワークを提供する。 Findable は、さまざまなソースに散らばっているため、しばしば参照可能 アクセス可能 いくつかはオフラインやペイウォールの後方にあるかもしれない 相互運用可能 標準的な知識表現フォーマットを使用して、共有される。
オランダの国立プロジェクト CLARIAH に開発・統合されたツールについて述べる。
- 参考スコア(独自算出の注目度): 0.05277024349608833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most important goals of digital humanities is to provide
researchers with data and tools for new research questions, either by
increasing the scale of scholarly studies, linking existing databases, or
improving the accessibility of data. Here, the FAIR principles provide a useful
framework as these state that data needs to be: Findable, as they are often
scattered among various sources; Accessible, since some might be offline or
behind paywalls; Interoperable, thus using standard knowledge representation
formats and shared vocabularies; and Reusable, through adequate licensing and
permissions. Integrating data from diverse humanities domains is not trivial,
research questions such as "was economic wealth equally distributed in the 18th
century?", or "what are narratives constructed around disruptive media
events?") and preparation phases (e.g. data collection, knowledge organisation,
cleaning) of scholars need to be taken into account. In this chapter, we
describe the ontologies and tools developed and integrated in the Dutch
national project CLARIAH to address these issues across datasets from three
fundamental domains or "pillars" of the humanities (linguistics, social and
economic history, and media studies) that have paradigmatic data
representations (textual corpora, structured data, and multimedia). We
summarise the lessons learnt from using such ontologies and tools in these
domains from a generalisation and reusability perspective.
- Abstract(参考訳): デジタル人文科学の最も重要な目標の1つは、研究者に新たな研究課題のためのデータとツールを提供することである。
ここでfairの原則は、データが必要な場合に有用なフレームワークを提供する: findable, 様々なソースに散在することが多い; アクセス可能; 一部はオフラインまたはペイウォールの背後にあるのでアクセス可能; 相互運用可能; 標準の知識表現形式と共有語彙を使用する; 適切なライセンスと許可によって再利用する。
多様な人文科学領域からのデータの統合は簡単ではなく、「経済の富は18世紀に均等に分配されたか?」「破壊的なメディアイベントを中心に構築された物語は何か?」といった研究課題や、学者の準備段階(データ収集、知識組織、清掃など)を考慮する必要がある。
本章では,オランダ国立プロジェクト clariah で開発・統合されたオントロジーとツールについて記述し,パラダイム的データ表現(文体コーパス,構造化データ,マルチメディア)を持つ人文科学(言語学,社会・経済史,メディア研究)の「ピラーズ」という3つの基本領域のデータセットから,これらの問題に対処した。
このようなオントロジーとツールを用いて,一般化と再利用性の観点から学んだ教訓を要約する。
関連論文リスト
- Online Digital Investigative Journalism using SociaLens [0.0]
オンラインソースからクエリ特定データを特定し,抽出するための,多目的かつ自律的な調査ジャーナリズムツールである em SociaLens を導入している。
我々は、調査ジャーナリズム、法執行、社会政策計画におけるその利用を構想する。
発展途上国におけるレイプ事件を事例として,SociaLensの機能について考察した。
論文 参考訳(メタデータ) (2024-10-13T07:20:47Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - Federated Learning for Generalization, Robustness, Fairness: A Survey
and Benchmark [55.898771405172155]
フェデレートラーニングは、異なる当事者間のプライバシー保護コラボレーションのための有望なパラダイムとして登場した。
我々は,連合学習研究の重要かつ最近の展開を体系的に概観する。
論文 参考訳(メタデータ) (2023-11-12T06:32:30Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - The Ethics of Social Media Analytics in Migration Studies [1.3651461111887733]
本章では、ソーシャルメディアプラットフォームを通じた移住研究の倫理的考察の概要について述べる。
関連する学術文献に基づいて,過去20年間にソーシャルメディア研究に関連する倫理的問題がどのように議論されてきたかを検討する。
この概要は、マイグレーションに関連する文脈におけるソーシャルメディア研究に関連する倫理的課題を考慮し、緩和するための理論的および実践的なツールを研究者に提供するために設計されている。
論文 参考訳(メタデータ) (2023-02-28T08:39:22Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Studying Up Machine Learning Data: Why Talk About Bias When We Mean
Power? [0.0]
我々は、社会的問題を「バイアス」に減らすことは、文脈に基づくデータの性質を損なうと論じている。
MLデータセットを形作るデータワーカーの労働にかかわる企業力と市場衝動に注目します。
論文 参考訳(メタデータ) (2021-09-16T17:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。