論文の概要: Unveiling A Hidden Risk: Exposing Educational but Malicious Repositories
in GitHub
- arxiv url: http://arxiv.org/abs/2403.04419v1
- Date: Thu, 7 Mar 2024 11:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:12:41.932108
- Title: Unveiling A Hidden Risk: Exposing Educational but Malicious Repositories
in GitHub
- Title(参考訳): 隠れたリスク - githubで教育的だが悪意のあるリポジトリを公開
- Authors: Md Rayhanul Masud (University of California, Riverside), Michalis
Faloutsos (University of California, Riverside)
- Abstract要約: 私たちはChatGPTを使って、ソフトウェアリポジトリに公開されたコンテンツを理解し、注釈付けします。
教育目的のみのために作成されたとされる35.2KのGitHubリポジトリのコレクションについて、体系的な調査を行っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Are malicious repositories hiding under the educational label in GitHub?
Recent studies have identified collections of GitHub repositories hosting
malware source code with notable collaboration among the developers. Thus,
analyzing GitHub repositories deserves inevitable attention due to its
open-source nature providing easy access to malicious software code and
artifacts. Here we leverage the capabilities of ChatGPT in a qualitative study
to annotate an educational GitHub repository based on maliciousness of its
metadata contents. Our contribution is twofold. First, we demonstrate the
employment of ChatGPT to understand and annotate the content published in
software repositories. Second, we provide evidence of hidden risk in
educational repositories contributing to the opportunities of potential threats
and malicious intents. We carry out a systematic study on a collection of 35.2K
GitHub repositories claimed to be created for educational purposes only. First,
our study finds an increasing trend in the number of such repositories
published every year. Second, 9294 of them are labeled by ChatGPT as malicious,
and further categorization of the malicious ones detects 14 different malware
families including DDoS, keylogger, ransomware and so on. Overall, this
exploratory study flags a wake-up call for the community for better
understanding and analysis of software platforms.
- Abstract(参考訳): 悪意のあるリポジトリはgithubの教育ラベルの下に隠されているか?
最近の研究で、マルウェアソースコードをホストするGitHubリポジトリのコレクションが特定されている。
したがってgithubリポジトリの分析は、悪意のあるソフトウェアコードやアーティファクトへの容易なアクセスを提供するオープンソースの性質から、必然的に注目に値する。
ここでは、ChatGPTの機能を活用して質的研究を行い、そのメタデータの内容の悪意に基づいて教育用GitHubリポジトリに注釈を付ける。
私たちの貢献は2倍です。
まず,ChatGPTを用いてソフトウェアリポジトリに公開されているコンテンツを理解し,注釈を付ける。
第2に、潜在的脅威や悪意のある意図の機会に寄与する教育レポジトリの隠れたリスクの証拠を提供する。
教育目的のみに作成されたと主張された35.2kのgithubリポジトリのコレクションを体系的に調査した。
まず、毎年発行されるリポジトリの数の増加傾向について調査した。
第2に、その9294はchatgptによって悪質と分類され、さらに悪意のあるものを分類すると、ddos、keylogger、ランサムウェアなど14の異なるマルウェアファミリーが検出される。
全体として、この探索的な研究は、ソフトウェアプラットフォームの理解と分析をより良くするため、コミュニティに警鐘を鳴らします。
関連論文リスト
- Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories [83.5195424237358]
既存のベンチマークは、現実世界のコードリポジトリと不整合である。
我々はDevEvalという新しいベンチマークを提案し、これは3つの進歩がある。
DevEvalは117のリポジトリから1,874のサンプルを持ち、10の人気のあるドメインをカバーする。
論文 参考訳(メタデータ) (2024-05-30T09:03:42Z) - Analyzing the Accessibility of GitHub Repositories for PyPI and NPM Libraries [91.97201077607862]
産業アプリケーションはオープンソースソフトウェア(OSS)ライブラリに大きく依存しており、様々な利点を提供している。
このようなコミュニティの活動を監視するには、エコシステムのライブラリの包括的なリポジトリのリストにアクセスしなければなりません。
本研究では、PyPIライブラリとNPMライブラリのGitHubリポジトリのアクセシビリティを分析する。
論文 参考訳(メタデータ) (2024-04-26T13:27:04Z) - MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。
ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-26T17:57:57Z) - LEGION: Harnessing Pre-trained Language Models for GitHub Topic
Recommendations with Distribution-Balance Loss [3.946772434700026]
自動トピックレコメンデーションの現在の方法は、テキストデータを符号化するTF-IDFに大きく依存している。
本稿では、GitHubリポジトリのトピックを推奨するために、事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案する。
実世界のGitHubリポジトリのベンチマークデータセットに対する実証的な評価は、GitHubのトピックを推奨する上で、LegionがバニラPTMを最大26%改善できることを示しています。
論文 参考訳(メタデータ) (2024-03-09T10:49:31Z) - How do Software Engineering Researchers Use GitHub? An Empirical Study of Artifacts & Impact [0.2209921757303168]
我々は、著者が研究にかかわるソーシャルコーディングにどのように関与しているかを尋ねる。
トップSE研究会場で1万件の論文が公開され、GitHubリンクに手書き注釈が付けられ、309の論文関連リポジトリが研究されている。
人気と影響力は広く分布しており、一部は出版会場と強く相関している。
論文 参考訳(メタデータ) (2023-10-02T18:56:33Z) - VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model [13.96251273677855]
VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。
脆弱性のあるパッケージを識別するための平均精度は0.806である。
私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
論文 参考訳(メタデータ) (2023-08-09T02:02:46Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - Multifaceted Hierarchical Report Identification for Non-Functional Bugs
in Deep Learning Frameworks [5.255197438986675]
ディープラーニング(DL)フレームワークにおける非機能バグ関連レポートを自動的に識別するエンドツーエンドツールであるMHNurfを提案する。
MHNurfの中核は、3つの未解決課題に取り組むMHAN(Multifaceted Hierarchical Attention Network)である。
MHNurfはコンテンツ、コメント、コードの組み合わせでベストを尽くしている。
論文 参考訳(メタデータ) (2022-10-04T18:49:37Z) - GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。
このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文 参考訳(メタデータ) (2022-05-04T23:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。