論文の概要: TiAb Review Plugin: A Browser-Based Tool for AI-Assisted Title and Abstract Screening
- arxiv url: http://arxiv.org/abs/2604.08602v1
- Date: Wed, 08 Apr 2026 03:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.477055
- Title: TiAb Review Plugin: A Browser-Based Tool for AI-Assisted Title and Abstract Screening
- Title(参考訳): TiAb Review Plugin: AIアシストタグと抽象スクリーニングのためのブラウザベースのツール
- Authors: Yuki Kataoka, Masahiro Banno, Michihito Kyo, Shuri Nakao, Tomoo Sato, Shunsuke Taito, Tomohiro Takayama, Takahiro Tsuge, Yasushi Tsujimoto, Ryuhei So, Toshi A. Furukawa,
- Abstract要約: TiAb ReviewはオープンソースのChromeブラウザエクステンションである。
手動レビュー、大規模言語モデル(LLM)バッチスクリーニング、機械学習(ML)アクティブラーニングの3つのスクリーニングモードを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Server-based screening tools impose subscription costs, while open-source alternatives require coding skills. Objectives: We developed a browser extension that provides no-code, serverless artificial intelligence (AI)-assisted title and abstract screening and examined its functionality. Methods: TiAb Review Plugin is an open-source Chrome browser extension (available at https://chromewebstore.google.com/detail/tiab-review-plugin/alejlnlfflogpnabpbplmnojgoeeabij). It uses Google Sheets as a shared database, requiring no dedicated server and enabling multi-reviewer collaboration. Users supply their own Gemini API key, stored locally and encrypted. The tool offers three screening modes: manual review, large language model (LLM) batch screening, and machine learning (ML) active learning. For ML evaluation, we re-implemented the default ASReview active learning algorithm (TF-IDF with Naive Bayes) in TypeScript to enable in-browser execution, and verified equivalence against the original Python implementation using 10-fold cross-validation on six datasets. For LLM evaluation, we compared 16 parameter configurations across two model families on a benchmark dataset, then validated the optimal configuration (Gemini 3.0 Flash, low thinking budget, TopP=0.95) with a sensitivity-oriented prompt on five public datasets (1,038 to 5,628 records, 0.5 to 2.0 percent prevalence). Results: The TypeScript classifier produced top-100 rankings 100 percent identical to the original ASReview across all six datasets. For LLM screening, recall was 94 to 100 percent with precision of 2 to 15 percent, and Work Saved over Sampling at 95 percent recall (WSS@95) ranged from 48.7 to 87.3 percent. Conclusions: We developed a functional browser extension that integrates LLM screening and ML active learning into a no-code, serverless environment, ready for practical use in systematic review screening.
- Abstract(参考訳): 背景: サーバベースのスクリーニングツールはサブスクリプションコストを課し、オープンソースの代替手段はコーディングスキルを必要とする。
Objectives: ノーコード、サーバレス人工知能(AI)支援のタイトルと抽象的なスクリーニングを提供するブラウザエクステンションを開発し、その機能を調べました。
メソッド: TiAb Review PluginはオープンソースのChromeブラウザエクステンションである(https://chromewebstore.google.com/detail/tiab-review-plugin/alejlnlfflogpnabpbplmnojgoeeabijで入手できる)。
Google Sheetsを共有データベースとして使用し、専用サーバを必要とせず、マルチビューアのコラボレーションを可能にする。
ユーザは独自のGemini APIキーを提供し、ローカルに保存されて暗号化される。
このツールは、手動レビュー、大規模言語モデル(LLM)バッチスクリーニング、機械学習(ML)アクティブラーニングの3つのスクリーニングモードを提供する。
ML評価では、デフォルトのASReviewアクティブ学習アルゴリズム(TF-IDF with Naive Bayes)をTypeScriptで再実装し、ブラウザ内での実行を可能にし、6つのデータセットで10倍のクロスバリデーションを使用して、オリジナルのPython実装と等価性を検証した。
LLM評価では、ベンチマークデータセット上で2つのモデルファミリにまたがる16のパラメータ構成を比較し、最適構成(Gemini 3.0 Flash、低思考予算、TopP=0.95)を5つのパブリックデータセット(1,038から5,628レコード、0.5から2.0パーセント)に対して感度指向のプロンプトで検証した。
結果: TypeScript分類器は6つのデータセットすべてで、オリジナルのASReviewと100%同じランキングを作成した。
LLMのスクリーニングでは、リコールの精度は2から15%で94から100%であり、ワークセーブオーバーサンプリングの95%リコール(WSS@95)は48.7から87.3%であった。
結論: LLMスクリーニングとMLアクティブラーニングを統合した,機能的なブラウザエクステンションを開発しました。
関連論文リスト
- The Hidden DNA of LLM-Generated JavaScript: Structural Patterns Enable High-Accuracy Authorship Attribution [2.334824705384299]
大規模言語モデルによって生成されたJavaScriptコードが、どのモデルで生成されたかを明らかにすることができるかどうかについて、最初の大規模研究を行った。
それぞれのLLMが、同じファミリーやパラメータサイズに属するモデルであっても、独自のスタイル的シグネチャを残していることを示す。
LLM-NodeJSは、20の大規模言語モデルから5万のNode.jsバックエンドプログラムのデータセットである。
論文 参考訳(メタデータ) (2025-10-12T07:51:03Z) - MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models [10.977990951788422]
我々は、HTML/DOMを読み、Seleniumを出力することで、LLMが再利用可能なブラウザ自動プログラム(マクロ)を自然言語で合成できるかどうかを評価するコードファーストベンチマークであるMacroBenchを紹介した。
MacroBenchは、681のタスクをカバーする7つのセルフホストサイトを、インタラクションの複雑さとターゲティングの難しさでインスタンス化する。
GPT-4o-mini (96.8%), GPT-4o (95.3%), Gemini (89.0%), DeepSeek (83.4%)
論文 参考訳(メタデータ) (2025-10-05T21:15:11Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。