論文の概要: AISysRev -- LLM-based Tool for Title-abstract Screening
- arxiv url: http://arxiv.org/abs/2510.06708v1
- Date: Wed, 08 Oct 2025 06:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.342675
- Title: AISysRev -- LLM-based Tool for Title-abstract Screening
- Title(参考訳): AISysRev -- LLMをベースとしたTitle-abstractスキャニングツール
- Authors: Aleksi Huotala, Miikka Kuutila, Olli-Pekka Turtio, Mika Mäntylä,
- Abstract要約: AiSysRevは、書類をスクリーニングするためのDockerコンテナで動作するWebアプリケーションである。
紙のタイトルと要約を含むCSVファイルを受け取る。
ユーザーはインクルージョンと除外の基準を指定する。
ゼロショットと少数ショットの両方をサポートする。
- 参考スコア(独自算出の注目度): 0.7758046038799246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systematic reviews are a standard practice for summarizing the state of evidence in software engineering. Conducting systematic reviews is laborious, especially during the screening or study selection phase, where the number of papers can be overwhelming. During this phase, papers are assessed against inclusion and exclusion criteria based on their titles and abstracts. Recent research has demonstrated that large language models (LLMs) can perform title-abstract screening at a level comparable to that of a master's student. While LLMs cannot be fully trusted, they can help, for example, in Rapid Reviews, which try to expedite the review process. Building on recent research, we developed AiSysRev, an LLM-based screening tool implemented as a web application running in a Docker container. The tool accepts a CSV file containing paper titles and abstracts. Users specify inclusion and exclusion criteria. One can use multiple LLMs for screening via OpenRouter. AiSysRev supports both zero-shot and few-shot screening, and also allows for manual screening through interfaces that display LLM results as guidance for human reviewers.We conducted a trial study with 137 papers using the tool. Our findings indicate that papers can be classified into four categories: Easy Includes, Easy Excludes, Boundary Includes, and Boundary Excludes. The Boundary cases, where LLMs are prone to errors, highlight the need for human intervention. While LLMs do not replace human judgment in systematic reviews, they can significantly reduce the burden of assessing large volumes of scientific literature. Video: https://www.youtube.com/watch?v=jVbEj4Y4tQI Tool: https://github.com/EvoTestOps/AISysRev
- Abstract(参考訳): システムレビューは、ソフトウェア工学における証拠の状態を要約する標準的なプラクティスである。
体系的なレビューの実施は、特に、論文の数が圧倒的に多いスクリーニングまたは研究選択フェーズにおいて、厳しい作業である。
この段階において、論文は、そのタイトルと要約に基づいて、包括的および排他的基準に基づいて評価される。
近年の研究では、大型言語モデル(LLM)が、修士課程の学生に匹敵するレベルでタイトル抽出スクリーニングを行えることが実証されている。
LLMは信頼できないが、例えばRapid Reviewsではレビュープロセスの迅速化を図っている。
AiSysRevはLLMベースのスクリーニングツールで、Dockerコンテナ内で動作するWebアプリケーションとして実装されています。
このツールは、紙のタイトルと要約を含むCSVファイルを受け入れる。
ユーザーはインクルージョンと除外の基準を指定する。
OpenRouter を通じて複数の LLM をスクリーニングすることができる。
AiSysRevはゼロショットと少数ショットの両方のスクリーニングをサポートし、LLM結果を人間レビュアーのガイダンスとして表示するインタフェースによる手動スクリーニングを可能にする。
論文は, 易解, 容易解, 境界解, 境界解の4つのカテゴリに分類される。
LLMがエラーを起こしやすい境界ケースは、人間の介入の必要性を強調している。
LLMは、体系的なレビューにおいて人間の判断に取って代わるものではないが、大量の科学文献を評価することの負担を大幅に削減することができる。
ビデオ: https://www.youtube.com/watch?
v=jVbEj4Y4tQI Tool: https://github.com/EvoTestOps/AISysRev
関連論文リスト
- SESR-Eval: Dataset for Evaluating LLMs in the Title-Abstract Screening of Systematic Reviews [0.9421843976231371]
我々は,大言語モデル (LLM) の性能を評価するためのベンチマークデータセットを,体系的レビュー (SR) のタイトル別スクリーニングプロセスで作成する。
ソフトウェア工学(SE)ジャーナルに掲載された24の二次研究から,34,528のラベル付き一次研究を含むSESR-Evalデータセットを提案する。
我々のベンチマークは、ソフトウェア工学におけるSRのスクリーニングタスクにおけるAIパフォーマンスのモニタリングを可能にする。
論文 参考訳(メタデータ) (2025-07-25T07:27:03Z) - LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature Reviews [0.9314555897827079]
体系的な文献レビューは、トピックに関するすべての関連論文を特定し評価することを目的としている。
現在までに、大型言語モデル(LLM)を用いた抽象的なスクリーニング手法はバイナリ分類設定に重点を置いている。
ゼロショットLLMガイド付き抽象ランクラであるLGARを提案する。
論文 参考訳(メタデータ) (2025-05-30T16:18:50Z) - AiReview: An Open Platform for Accelerating Systematic Reviews with LLMs [43.1999161587789]
AiReview は LLM による体系的レビュー作成のための新しいプラットフォームである。
最先端のLCM支援スクリーニング法と、医学的体系的レビューを作成する方法とのギャップを埋める最初の方法である。
論文 参考訳(メタデータ) (2025-04-05T14:55:43Z) - LitLLMs, LLMs for Literature Review: Are we there yet? [15.785989492351684]
本稿では,近年の大規模言語モデルのゼロショット能力について,要約に基づく文献レビューの執筆支援について考察する。
まず LLM を用いて,論文の要約から意味のあるキーワードを抽出する新しい2段階探索手法を提案する。
生成段階では、まずレビューの計画を概説し、次に実際のレビューを生成するためのステップを実行する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-15T01:12:26Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。