論文の概要: Measuring the State of Open Science in Transportation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2601.14429v1
- Date: Tue, 20 Jan 2026 19:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.133378
- Title: Measuring the State of Open Science in Transportation Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた輸送におけるオープンサイエンスの実態測定
- Authors: Junyi Ji, Ruth Lu, Linda Belkessa, Liming Wang, Silvia Varotto, Yongqi Dong, Nicolas Saunier, Mostafa Ameli, Gregory S. Macfarlane, Bahman Madadi, Cathy Wu,
- Abstract要約: オープンサイエンスのイニシアチブは、科学の完全性を強化し、多くの分野における研究の進歩を加速してきた。
オープンサイエンスの主要な特徴は、ここではデータとコードの可用性として定義されており、フィールド固有の複雑さのために抽出するのが困難である。
本稿では,交通研究におけるデータとコード可用性を計測する,自動かつスケーラブルな特徴抽出パイプラインを提案する。
- 参考スコア(独自算出の注目度): 8.915048816245394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open science initiatives have strengthened scientific integrity and accelerated research progress across many fields, but the state of their practice within transportation research remains under-investigated. Key features of open science, defined here as data and code availability, are difficult to extract due to the inherent complexity of the field. Previous work has either been limited to small-scale studies due to the labor-intensive nature of manual analysis or has relied on large-scale bibliometric approaches that sacrifice contextual richness. This paper introduces an automatic and scalable feature-extraction pipeline to measure data and code availability in transportation research. We employ Large Language Models (LLMs) for this task and validate their performance against a manually curated dataset and through an inter-rater agreement analysis. We applied this pipeline to examine 10,724 research articles published in the Transportation Research Part series of journals between 2019 and 2024. Our analysis found that only 5% of quantitative papers shared a code repository, 4% of quantitative papers shared a data repository, and about 3% of papers shared both, with trends differing across journals, topics, and geographic regions. We found no significant difference in citation counts or review duration between papers that provided data and code and those that did not, suggesting a misalignment between open science efforts and traditional academic metrics. Consequently, encouraging these practices will likely require structural interventions from journals and funding agencies to supplement the lack of direct author incentives. The pipeline developed in this study can be readily scaled to other journals, representing a critical step toward the automated measurement and monitoring of open science practices in transportation research.
- Abstract(参考訳): オープンサイエンスのイニシアチブは、科学の完全性を強化し、多くの分野における研究の進歩を加速してきたが、輸送研究における彼らの実践の状況はまだ解明されていない。
オープンサイエンスの主要な特徴は、ここではデータとコードの可用性として定義されており、フィールド固有の複雑さのために抽出するのが困難である。
以前の研究は、手動分析の労働集約性のため、小規模な研究に限られるか、文脈的豊かさを犠牲にする大規模な書誌学的なアプローチに依存してきた。
本稿では,交通研究におけるデータとコード可用性を計測する,自動かつスケーラブルな特徴抽出パイプラインを提案する。
このタスクにはLarge Language Models (LLMs) を使用し、手動でキュレートされたデータセットとラッター間合意分析を用いてその性能を検証する。
このパイプラインを用いて、2019年から2024年にかけて、トランスポーテーション・リサーチ・パート(Transport Research Part)シリーズに掲載された10,724の論文を調査した。
分析の結果、コードリポジトリを共有しているのは定量的論文の5%、定量的論文の4%、データリポジトリを共有している論文の約3%、ジャーナル、トピック、地域によって傾向が異なることがわかった。
データとコードを提供する論文と、そうでない論文との間には、引用数やレビュー期間に有意な差は見られず、オープンサイエンスの取り組みと従来の学術指標との相違が示唆された。
したがって、これらの慣行を奨励するには、直接の著者インセンティブの欠如を補うために、雑誌や資金調達機関による構造的な介入が必要になる可能性が高い。
本研究で開発されたパイプラインは、他のジャーナルにも容易に拡張可能であり、交通研究におけるオープンサイエンスの実践の自動計測とモニタリングへの重要な一歩である。
関連論文リスト
- Analyzing Political Text at Scale with Online Tensor LDA [53.16930342547758]
本稿では,数十億の文書に線形にスケールするトピックモデリング手法を提案する。
本手法は, 並列化遅延ディリクレ割当法(LDA法)の3,4倍の高速化を実現するため, 計算処理とメモリ効率がよいことを示す。
我々は、政治科学者に2つの実世界、大規模な新しい研究を行ないました。
論文 参考訳(メタデータ) (2025-11-11T03:58:48Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。
これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。
SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Research Topic Flows in Co-Authorship Networks [0.0]
本稿では,研究論文の著者とその研究分野間の流れを解析するためのグラフ構造を提案する。
我々の方法は、出版物のコーパス(すなわち、著者と抽象的な情報)のみを構築するために必要である。
本手法をコンピュータ科学と数学の分野で60年以上研究されてきた論文20冊の総合コーパスに適用することにより,TFNの有用性を実証する。
論文 参考訳(メタデータ) (2022-06-16T07:45:53Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Evaluating the state-of-the-art in mapping research spaces: a Brazilian
case study [0.0]
最近の2つの研究は、科学者の出版記録から研究地図を作成する方法を提案している。
与えられたエンティティが新しいフィールドに入るかどうかを予測するモデルの能力を評価します。
これらのモデルがどのようにブラジルの文脈で科学のダイナミクスを特徴づけることができるかを示すケーススタディを実施します。
論文 参考訳(メタデータ) (2021-04-07T18:14:41Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Topic Space Trajectories: A case study on machine learning literature [0.0]
本稿では,研究トピックの包括的追跡を可能にする構造であるトピック空間トラジェクトリを提案する。
我々は,32の出版会場から50年間の機械学習研究を対象とする出版コーパスへのアプローチの適用性を示した。
本手法は,論文分類,今後の研究課題の予測,未発表の論文提出のための会議や雑誌の掲載を推奨するために利用することができる。
論文 参考訳(メタデータ) (2020-10-23T10:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。