論文の概要: Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer
Review
- arxiv url: http://arxiv.org/abs/2309.05457v1
- Date: Mon, 11 Sep 2023 13:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:27:02.871370
- Title: Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer
Review
- Title(参考訳): センタネルの暴露:サイバーセキュリティピアレビューでAIのパフォーマンスを評価する
- Authors: Liang Niu, Nian Xue, Christina P\"opper
- Abstract要約: サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。
本稿では、ピアレビューの聖杯に触れ、学術的セキュリティカンファレンスのレビューにおけるAIのパフォーマンスについて光を当てることを目的としている。
本研究では,人間レビュアーと機械学習モデルから得られた結果を比較し,評価結果の予測可能性について検討する。
- 参考スコア(独自算出の注目度): 4.081120388114928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Peer review is the method employed by the scientific community for evaluating
research advancements. In the field of cybersecurity, the practice of
double-blind peer review is the de-facto standard. This paper touches on the
holy grail of peer reviewing and aims to shed light on the performance of AI in
reviewing for academic security conferences. Specifically, we investigate the
predictability of reviewing outcomes by comparing the results obtained from
human reviewers and machine-learning models. To facilitate our study, we
construct a comprehensive dataset by collecting thousands of papers from
renowned computer science conferences and the arXiv preprint website. Based on
the collected data, we evaluate the prediction capabilities of ChatGPT and a
two-stage classification approach based on the Doc2Vec model with various
classifiers. Our experimental evaluation of review outcome prediction using the
Doc2Vec-based approach performs significantly better than the ChatGPT and
achieves an accuracy of over 90%. While analyzing the experimental results, we
identify the potential advantages and limitations of the tested ML models. We
explore areas within the paper-reviewing process that can benefit from
automated support approaches, while also recognizing the irreplaceable role of
human intellect in certain aspects that cannot be matched by state-of-the-art
AI techniques.
- Abstract(参考訳): ピアレビュー(Peer Review)は、科学コミュニティが研究の進歩を評価するために使う手法である。
サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。
本稿では,ピアレビューの聖杯に触れ,アカデミックセキュリティカンファレンスのレビューにおいて,aiのパフォーマンスに光を当てることを目的とする。
具体的には,人間のレビュー者と機械学習モデルから得られた結果を比較し,レビュー結果の予測可能性について検討する。
本研究では,コンピュータサイエンスカンファレンスやarXivプレプリントWebサイトから数千の論文を収集し,包括的データセットを構築した。
収集したデータに基づいて、ChatGPTの予測能力と、様々な分類器を持つDoc2Vecモデルに基づく2段階分類手法を評価する。
Doc2Vecを用いた評価結果の予測実験では,ChatGPTよりも精度が高く,90%以上の精度が得られた。
実験結果を分析しながら、テストされたMLモデルの潜在的な利点と限界を同定する。
我々は、自動化されたサポートアプローチの恩恵を受けることができる論文レビュープロセス内の領域を探求するとともに、最先端のAI技術では一致しない特定の側面において、人間の知性の役割を認識できるようにする。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - GPT4 is Slightly Helpful for Peer-Review Assistance: A Pilot Study [0.0]
GPT4はピアレビュープロセスを支援するために開発された。
大規模な機械学習会議に提出された学術論文の人間レビュアーとGPTモデルによるレビューを比較することにより、人工知能がピアレビュープロセスに効果的に貢献できるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2023-06-16T23:11:06Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL [20.360392791376707]
強化学習(RL)エージェントは、テストシナリオの分布よりも期待値を通じて一般的に評価される。
学習した遷移モデルと値関数を用いてオンライン木探索による決定を行うRLエージェントのテストを検討する。
本稿では,複雑なリアルタイム戦略ゲームを行うために訓練されたエージェントを評価するアプローチを用いて,知識のあるAI研究者が関与するユーザスタディを提案する。
論文 参考訳(メタデータ) (2022-06-04T18:16:05Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。