論文の概要: Doctoral Theses in France (1985-2025): A Linked Dataset of PhDs, Academic Networks, and Institutions
- arxiv url: http://arxiv.org/abs/2604.08619v1
- Date: Thu, 09 Apr 2026 08:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.495021
- Title: Doctoral Theses in France (1985-2025): A Linked Dataset of PhDs, Academic Networks, and Institutions
- Title(参考訳): フランスにおける博士論文(1985年-2025年):博士課程、学術ネットワーク、機関の関連データセット
- Authors: William Aboucaya, Dastan Jasim,
- Abstract要約: 本稿では,1985年から2025年の間にフランスで防衛された博士論文の包括的データセットについて述べる。
このデータセットは、主にフランス国立論文プラットフォームからのデータに基づいており、追加の権威とメタデータを使用して強化されている。
論文は、他の研究者によるデータセットの再利用を容易にすることを目的として、データソース、処理パイプライン、機能構築、データ品質の問題、制限について文書化している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a comprehensive dataset of doctoral theses defended in France between 1985 and 2025, constructed from multiple national academic metadata sources. The dataset is primarily based on data from the French national thesis platform and is enriched using additional authority and bibliographic databases to improve data quality, completeness, and interoperability. The data production pipeline includes the aggregation of heterogeneous sources, the correction of inconsistent identifiers, the enrichment of person and institution records, and the construction of derived variables describing academic careers, jury participation, institutional affiliations, and thesis characteristics. Additional identifiers from major academic repositories and library catalogues are integrated to facilitate linkage with external data sources and future dataset extensions. The resulting dataset provides structured information at the thesis, individual, and institutional levels, enabling both descriptive and relational analyses. This resource is particularly suited for research on doctoral education, academic networks, supervision practices, jury composition, institutional collaboration, and the evolution of research communities over time. The paper documents the data sources, processing pipeline, feature construction, data quality issues, and limitations, with the objective of facilitating reuse of the dataset by other researchers and supporting future extensions and longitudinal analyses of the academic system.
- Abstract(参考訳): 本稿では,1985年から2025年の間にフランスで防衛された博士論文の包括的データセットについて述べる。
このデータセットは、主にフランスの論文プラットフォームからのデータに基づいており、データ品質、完全性、相互運用性を改善するために、追加の権威と文献データベースを使用して強化されている。
データ生産パイプラインは、異種情報源の集約、不整合識別子の補正、人物及び機関記録の充実、学歴、陪審参加、機関提携、論文特性を記述した派生変数の構築を含む。
外部データソースと将来のデータセット拡張とのリンクを容易にするために、主要な学術リポジトリとライブラリカタログから追加の識別子が統合されている。
得られたデータセットは、論文、個人、制度レベルで構造化された情報を提供し、記述的および関係的な分析を可能にする。
この資源は特に、博士教育、学術ネットワーク、監督実践、陪審構成、制度的協力、研究コミュニティの進化の研究に適している。
本論文は,データソース,処理パイプライン,機能構築,データ品質問題,限界について,他の研究者によるデータセットの再利用を容易にし,将来的な拡張と学術システムの経時的分析を支援することを目的とする。
関連論文リスト
- A Data-Driven Analysis for Engineering Conferences: The Institute of Industrial and Systems Engineering (IISE) Annual Conference Proceedings (2002-2025) [0.0]
本稿では,2002年から2025年までのIISE手順の計算解析について述べる。
我々は、テーマの進化を、支配的、新興、そして後退する研究トピックを特定するためにマッピングする。
この発見は分野の知的資産を照らし、ISEの将来を導くためのデータインフォームドマップを提供する。
論文 参考訳(メタデータ) (2026-02-28T01:10:46Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - OpenConstruction: A Systematic Synthesis of Open Visual Datasets for Data-Centric Artificial Intelligence in Construction Monitoring [4.795391174842949]
建設業界は、サイト監視のための人工知能(AI)と機械学習(ML)アプリケーションをサポートするために、視覚データにますます依存している。
ビジュアルデータセットへの関心が高まりつつあるにもかかわらず、既存のリソースは、実世界の建設条件のサイズ、品質、代表性に大きく変化している。
本研究では,これらの知見をオープンソースカタログであるOpenConstructionに合成し,データ駆動型手法開発を支援する。
論文 参考訳(メタデータ) (2025-08-15T13:56:21Z) - A Data Literacy Competence Model for Higher Education and Research [0.0]
TH K"olnのデータリテラシーイニシアチブ(DaLI)は、高等教育におけるデータリテラシーを促進する能力モデルを開発する。
学際的なコラボレーションと実証的研究に基づいて、DALIモデルは7つの総合的な能力領域を定義している。
データリテラシーを大学プログラムに戦略的に統合することを支援する。
論文 参考訳(メタデータ) (2025-04-22T08:14:23Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents [93.55219461948529]
PIN(Paired and INterleaved multimodal document)は、視覚とテキストの知識のより深い統合を促進するために設計された、新しいデータフォーマットである。
PIN-200M(2億ドキュメント)とPIN-14M(14百万ドキュメント)の2つの大規模オープンソースデータセットを構築しリリースする。
論文 参考訳(メタデータ) (2024-06-20T01:43:08Z) - CoCon: A Data Set on Combined Contextualized Research Artifact Use [0.0]
CoConは学術出版物の全文に研究成果物の組み合わせを反映した大規模な学術データセットである。
データセットは35kのアーティファクト(データセット、メソッド、モデル、タスク)と340kのパブリッシュで構成されています。
我々は,「総合研究成果物利用予測」のためのリンク予測タスクを形式化し,データに基づくMLアプリケーションの解析と開発を利用するためのコードを提供する。
論文 参考訳(メタデータ) (2023-03-27T13:29:09Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Ontologies in CLARIAH: Towards Interoperability in History, Language and
Media [0.05277024349608833]
デジタル人文科学の最も重要な目標の1つは、研究者に新しい研究質問のためのデータとツールを提供することである。
FAIRの原則は、データが必要な状態として、これらのフレームワークを提供する。 Findable は、さまざまなソースに散らばっているため、しばしば参照可能 アクセス可能 いくつかはオフラインやペイウォールの後方にあるかもしれない 相互運用可能 標準的な知識表現フォーマットを使用して、共有される。
オランダの国立プロジェクト CLARIAH に開発・統合されたツールについて述べる。
論文 参考訳(メタデータ) (2020-04-06T17:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。