論文の概要: An Automated Grey Literature Extraction Tool for Software Engineering
- arxiv url: http://arxiv.org/abs/2512.23066v1
- Date: Sun, 28 Dec 2025 20:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.347661
- Title: An Automated Grey Literature Extraction Tool for Software Engineering
- Title(参考訳): ソフトウェア工学のためのGrey Literature自動抽出ツール
- Authors: Houcine Abdelkader Cherief, Brahim Mahmoudi, Zacharie Chenail-Larcher, Naouel Moha, Quentin Sti'evenart, Florent Avellaneda,
- Abstract要約: 我々は、研究トピックのプロンプトをプラットフォーム固有のクエリに変換するプロンプト駆動ツールであるGLiSEを紹介する。
一般的なソフトウェアエンジニアリングWebソース(GitHub、Stack Overflow)とGoogle検索の結果を集めている。
埋め込みベースのセマンティック分類器を使用して、その関連性に応じて結果をフィルタリングしランク付けする。
- 参考スコア(独自算出の注目度): 3.3367150713199636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grey literature is essential to software engineering research as it captures practices and decisions that rarely appear in academic venues. However, collecting and assessing it at scale remains difficult because of their heterogeneous sources, formats, and APIs that impede reproducible, large-scale synthesis. To address this issue, we present GLiSE, a prompt-driven tool that turns a research topic prompt into platform-specific queries, gathers results from common software-engineering web sources (GitHub, Stack Overflow) and Google Search, and uses embedding-based semantic classifiers to filter and rank results according to their relevance. GLiSE is designed for reproducibility with all settings being configuration-based, and every generated query being accessible. In this paper, (i) we present the GLiSE tool, (ii) provide a curated dataset of software engineering grey-literature search results classified by semantic relevance to their originating search intent, and (iii) conduct an empirical study on the usability of our tool.
- Abstract(参考訳): グレーの文学はソフトウェア工学研究にとって不可欠であり、学術的な場所ではほとんど見られないプラクティスや決定を捉えている。
しかし、再現性や大規模な合成を阻害する不均一なソース、フォーマット、APIのため、大規模に収集し評価することは依然として困難である。
この問題に対処するため、GLiSEはプロンプト駆動のツールで、研究トピックをプラットフォーム固有のクエリに変換し、一般的なソフトウェアエンジニアリングWebソース(GitHub、Stack Overflow)とGoogle検索の結果を収集し、埋め込みベースのセマンティック分類器を使用して、その関連性に応じて結果をフィルタリングし、ランク付けする。
GLiSEは再現性のために設計されており、すべての設定は設定ベースで、生成されたクエリはすべてアクセス可能である。
本項で述べる。
i) GLiSE ツールを提示する。
二 原文検索意図に対する意味的関連性により分類した、ソフトウェア工学のグレーリテラル検索結果のキュレートされたデータセットを提供する。
三 ツールのユーザビリティに関する実証的研究を行う。
関連論文リスト
- Intelligent Scientific Literature Explorer using Machine Learning (ISLE) [0.797970449705065]
本稿では,大規模データ取得,ハイブリッド検索,セマンティックトピックモデリング,異種知識グラフ構築を組み合わせた科学文献探索システムを提案する。
提案するフレームワークは,AIによる科学的発見の基盤となる。
論文 参考訳(メタデータ) (2025-12-14T16:54:24Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature [0.0]
本研究では、arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出することにより、ギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
論文 参考訳(メタデータ) (2024-03-20T17:06:51Z) - A Metadata-Based Ecosystem to Improve the FAIRness of Research Software [0.3185506103768896]
研究ソフトの再利用は、研究効率と学術交流の中心である。
DataDescエコシステムは、詳細でマシン操作可能なメタデータを備えたソフトウェアインターフェースのデータモデルを記述するためのアプローチである。
論文 参考訳(メタデータ) (2023-06-18T19:01:08Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - A Survey on Machine Learning Techniques for Source Code Analysis [14.129976741300029]
ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。
そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,初等研究364点を同定した。
論文 参考訳(メタデータ) (2021-10-18T20:13:38Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。