論文の概要: Automating Document Classification with Distant Supervision to Increase
the Efficiency of Systematic Reviews
- arxiv url: http://arxiv.org/abs/2012.07565v1
- Date: Wed, 9 Dec 2020 22:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:09:26.073224
- Title: Automating Document Classification with Distant Supervision to Increase
the Efficiency of Systematic Reviews
- Title(参考訳): 遠隔観察による文書分類の自動化によるシステムレビューの効率化
- Authors: Xiaoxiao Li, Rabah Al-Zaidy, Amy Zhang, Stefan Baral, Le Bao, C. Lee
Giles
- Abstract要約: 体系的なレビューは高価で、時間的需要があり、労働集約的です。
文書のレビュー作業を大幅に削減するための自動文書分類アプローチを提案します。
- 参考スコア(独自算出の注目度): 18.33687903724145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: Systematic reviews of scholarly documents often provide complete
and exhaustive summaries of literature relevant to a research question.
However, well-done systematic reviews are expensive, time-demanding, and
labor-intensive. Here, we propose an automatic document classification approach
to significantly reduce the effort in reviewing documents. Methods: We first
describe a manual document classification procedure that is used to curate a
pertinent training dataset and then propose three classifiers: a keyword-guided
method, a cluster analysis-based refined method, and a random forest approach
that utilizes a large set of feature tokens. As an example, this approach is
used to identify documents studying female sex workers that are assumed to
contain content relevant to either HIV or violence. We compare the performance
of the three classifiers by cross-validation and conduct a sensitivity analysis
on the portion of data utilized in training the model. Results: The random
forest approach provides the highest area under the curve (AUC) for both
receiver operating characteristic (ROC) and precision/recall (PR). Analyses of
precision and recall suggest that random forest could facilitate manually
reviewing 20\% of the articles while containing 80\% of the relevant cases.
Finally, we found a good classifier could be obtained by using a relatively
small training sample size. Conclusions: In sum, the automated procedure of
document classification presented here could improve both the precision and
efficiency of systematic reviews, as well as facilitating live reviews, where
reviews are updated regularly.
- Abstract(参考訳): 目的: 学術文献の体系的レビューは、しばしば研究問題に関連する文学の完全かつ徹底的な要約を提供する。
しかし、体系的なレビューは高価で、時間的需要があり、労働集約的です。
本稿では,文書のレビュー作業を大幅に削減する自動文書分類手法を提案する。
方法:まず,関連するトレーニングデータセットのキュレーションに使用する手作業による文書分類手順を記述し,次にキーワード案内法,クラスタ分析に基づく改良法,多数の特徴トークンを用いたランダムフォレストアプローチという3つの分類法を提案する。
例えば、このアプローチは、HIVまたは暴力に関連する内容を含むと思われる女性性労働者を研究する文書を特定するために用いられる。
我々は,3つの分類器の性能をクロスバリデーションで比較し,モデルのトレーニングに使用するデータ部分の感度解析を行う。
結果: ランダムフォレストアプローチは, 受信動作特性 (ROC) と精度/リコール (PR) の両面において, 曲線 (AUC) の下の最も高い領域を提供する。
精度とリコールの分析から、ランダムな森林は記事の20%を手作業でレビューし、関連する事例の80%は含んでいることが示唆された。
最後に,比較的小さなトレーニングサンプルサイズを用いて,優れた分類器を得ることができた。
結論: 要約すると、ここで提示される文書分類の自動化手順は、体系的なレビューの正確性と効率性の両方を改善し、レビューを定期的に更新するライブレビューを促進する。
関連論文リスト
- Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [68.09977874599925]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Knowledge-Centric Templatic Views of Documents [2.8122829028152787]
著者はしばしば、異なる文書やフォーマットで同じ基礎知識について考えを組み立てる。
ドキュメント生成における以前の作業は、一般的に、各個別のフォーマットの作成をタスクが異なるものとみなしていた。
このアプローチは、研究とアプリケーションの両方の観点からAIが支援するコンテンツ作成の進歩に最適である。
論文 参考訳(メタデータ) (2024-01-13T01:22:15Z) - Zero-shot Generative Large Language Models for Systematic Review
Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文 参考訳(メタデータ) (2024-01-12T01:54:08Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Using Active Learning Methods to Strategically Select Essays for
Automated Scoring [0.0]
本研究の目的は,3つのアクティブラーニング手法を記述し,評価することである。
3つのアクティブな学習方法は不確実性に基づく、トポロジに基づく、ハイブリッドな方法である。
これら3つの手法はいずれも強い結果をもたらし、トポロジカルな手法は最も効率的な分類を生み出した。
論文 参考訳(メタデータ) (2023-01-02T12:46:10Z) - Neural Rankers for Effective Screening Prioritisation in Medical
Systematic Review Literature Search [31.797257552928336]
本稿では,事前学習した言語モデルを,体系的なレビュー文書ランキングタスクに適用する。
経験的分析は、このタスクの従来の方法と比較して、ニューラルネットワークがいかに効果的かを比較する。
以上の結果から,BERTをベースとしたランカは,現在のスクリーニング方法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-18T05:26:40Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。