論文の概要: Unveiling A Hidden Risk: Exposing Educational but Malicious Repositories
in GitHub
- arxiv url: http://arxiv.org/abs/2403.04419v1
- Date: Thu, 7 Mar 2024 11:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:12:41.932108
- Title: Unveiling A Hidden Risk: Exposing Educational but Malicious Repositories
in GitHub
- Title(参考訳): 隠れたリスク - githubで教育的だが悪意のあるリポジトリを公開
- Authors: Md Rayhanul Masud (University of California, Riverside), Michalis
Faloutsos (University of California, Riverside)
- Abstract要約: 私たちはChatGPTを使って、ソフトウェアリポジトリに公開されたコンテンツを理解し、注釈付けします。
教育目的のみのために作成されたとされる35.2KのGitHubリポジトリのコレクションについて、体系的な調査を行っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Are malicious repositories hiding under the educational label in GitHub?
Recent studies have identified collections of GitHub repositories hosting
malware source code with notable collaboration among the developers. Thus,
analyzing GitHub repositories deserves inevitable attention due to its
open-source nature providing easy access to malicious software code and
artifacts. Here we leverage the capabilities of ChatGPT in a qualitative study
to annotate an educational GitHub repository based on maliciousness of its
metadata contents. Our contribution is twofold. First, we demonstrate the
employment of ChatGPT to understand and annotate the content published in
software repositories. Second, we provide evidence of hidden risk in
educational repositories contributing to the opportunities of potential threats
and malicious intents. We carry out a systematic study on a collection of 35.2K
GitHub repositories claimed to be created for educational purposes only. First,
our study finds an increasing trend in the number of such repositories
published every year. Second, 9294 of them are labeled by ChatGPT as malicious,
and further categorization of the malicious ones detects 14 different malware
families including DDoS, keylogger, ransomware and so on. Overall, this
exploratory study flags a wake-up call for the community for better
understanding and analysis of software platforms.
- Abstract(参考訳): 悪意のあるリポジトリはgithubの教育ラベルの下に隠されているか?
最近の研究で、マルウェアソースコードをホストするGitHubリポジトリのコレクションが特定されている。
したがってgithubリポジトリの分析は、悪意のあるソフトウェアコードやアーティファクトへの容易なアクセスを提供するオープンソースの性質から、必然的に注目に値する。
ここでは、ChatGPTの機能を活用して質的研究を行い、そのメタデータの内容の悪意に基づいて教育用GitHubリポジトリに注釈を付ける。
私たちの貢献は2倍です。
まず,ChatGPTを用いてソフトウェアリポジトリに公開されているコンテンツを理解し,注釈を付ける。
第2に、潜在的脅威や悪意のある意図の機会に寄与する教育レポジトリの隠れたリスクの証拠を提供する。
教育目的のみに作成されたと主張された35.2kのgithubリポジトリのコレクションを体系的に調査した。
まず、毎年発行されるリポジトリの数の増加傾向について調査した。
第2に、その9294はchatgptによって悪質と分類され、さらに悪意のあるものを分類すると、ddos、keylogger、ランサムウェアなど14の異なるマルウェアファミリーが検出される。
全体として、この探索的な研究は、ソフトウェアプラットフォームの理解と分析をより良くするため、コミュニティに警鐘を鳴らします。
関連論文リスト
- LEGION: Harnessing Pre-trained Language Models for GitHub Topic
Recommendations with Distribution-Balance Loss [3.946772434700026]
自動トピックレコメンデーションの現在の方法は、テキストデータを符号化するTF-IDFに大きく依存している。
本稿では、GitHubリポジトリのトピックを推奨するために、事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案する。
実世界のGitHubリポジトリのベンチマークデータセットに対する実証的な評価は、GitHubのトピックを推奨する上で、LegionがバニラPTMを最大26%改善できることを示しています。
論文 参考訳(メタデータ) (2024-03-09T10:49:31Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [83.99011643648038]
私たちは、現実世界のソフトウェアエンジニアリングは、次世代の言語モデルを評価するためのリッチで持続可能で挑戦的なテストベッドであると考えています。
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、12ドルの人気のあるPythonリポジトリで対応するプルリクエストを含む、評価フレームワークである。
我々の評価は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題のみを解決可能であることを示している。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z) - EMBERSim: A Large-Scale Databank for Boosting Similarity Search in
Malware Analysis [48.5877840394508]
近年,定量化によるマルウェア検出から機械学習への移行が進んでいる。
本稿では、EMBERから始まるバイナリファイルの類似性研究の領域における欠陥に対処することを提案する。
我々は、EMBERに類似情報とマルウェアのクラスタグを付与し、類似性空間のさらなる研究を可能にする。
論文 参考訳(メタデータ) (2023-10-03T06:58:45Z) - How do Software Engineering Researchers Use GitHub? An Empirical Study
of Artifacts & Impact [0.26107298043931204]
我々は、著者が研究にかかわるソーシャルコーディングにどのように関与しているかを尋ねる。
トップSE研究会場で1万件の論文が公開され、GitHubリンクに手書き注釈が付けられ、309の論文関連リポジトリが研究されている。
人気と影響力は広く分布しており、一部は出版会場と強く相関している。
論文 参考訳(メタデータ) (2023-10-02T18:56:33Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Detecting Security Patches via Behavioral Data in Code Repositories [11.052678122289871]
Gitリポジトリ内の開発者動作のみを使用して,セキュリティパッチを自動的に識別するシステムを示す。
秘密のセキュリティパッチを88.3%、F1スコア89.8%で公開できることを示しました。
論文 参考訳(メタデータ) (2023-02-04T06:43:07Z) - Multifaceted Hierarchical Report Identification for Non-Functional Bugs
in Deep Learning Frameworks [5.255197438986675]
ディープラーニング(DL)フレームワークにおける非機能バグ関連レポートを自動的に識別するエンドツーエンドツールであるMHNurfを提案する。
MHNurfの中核は、3つの未解決課題に取り組むMHAN(Multifaceted Hierarchical Attention Network)である。
MHNurfはコンテンツ、コメント、コードの組み合わせでベストを尽くしている。
論文 参考訳(メタデータ) (2022-10-04T18:49:37Z) - GitRank: A Framework to Rank GitHub Repositories [0.0]
オープンソースリポジトリは豊富な情報を提供し、人工知能(AI)ベースのシステムの構築にますます利用されている。
このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankという名前のフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。
論文 参考訳(メタデータ) (2022-05-04T23:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。