論文の概要: OCEAN: Open-World Contrastive Authorship Identification
- arxiv url: http://arxiv.org/abs/2412.05049v1
- Date: Fri, 06 Dec 2024 14:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 22:41:41.142191
- Title: OCEAN: Open-World Contrastive Authorship Identification
- Title(参考訳): OCEAN: Open-World Contrastive Authorship Identification
- Authors: Felix Mächtle, Jan-Niclas Serr, Nils Loose, Jonas Sander, Thomas Eisenbarth,
- Abstract要約: OCEANは、関数レベルの著者帰属のための対照的な学習ベースのシステムである。
実世界のユースケースにおける著者帰属システムの性能向上を目的とした新しい現実的データセットであるCONANとSNOOPYを導入し、そのようなシステムの評価の堅牢性を高める。
Oceanは、ソフトウェアアップデートで未知の著者からのコードインジェクションを検出し、ソフトウェアサプライチェーンを保護する価値を強調できる。
- 参考スコア(独自算出の注目度): 5.072510609300123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In an era where cyberattacks increasingly target the software supply chain, the ability to accurately attribute code authorship in binary files is critical to improving cybersecurity measures. We propose OCEAN, a contrastive learning-based system for function-level authorship attribution. OCEAN is the first framework to explore code authorship attribution on compiled binaries in an open-world and extreme scenario, where two code samples from unknown authors are compared to determine if they are developed by the same author. To evaluate OCEAN, we introduce new realistic datasets: CONAN, to improve the performance of authorship attribution systems in real-world use cases, and SNOOPY, to increase the robustness of the evaluation of such systems. We use CONAN to train our model and evaluate on SNOOPY, a fully unseen dataset, resulting in an AUROC score of 0.86 even when using high compiler optimizations. We further show that CONAN improves performance by 7% compared to the previously used Google Code Jam dataset. Additionally, OCEAN outperforms previous methods in their settings, achieving a 10% improvement over state-of-the-art SCS-Gan in scenarios analyzing source code. Furthermore, OCEAN can detect code injections from an unknown author in a software update, underscoring its value for securing software supply chains.
- Abstract(参考訳): サイバー攻撃がソフトウェアサプライチェーンを標的にしている時代において、バイナリファイルのコードオーサシップを正確に属性付ける能力は、サイバーセキュリティ対策の改善に不可欠である。
我々は,関数レベルの著者帰属のための対照的な学習ベースシステムであるOCEANを提案する。
OCEANは、オープンワールドと極端なシナリオにおいてコンパイルされたバイナリに対するコードオーサシップの属性を探求する最初のフレームワークであり、未知の作者の2つのコードサンプルを比較して、それらが同じ著者によって開発されているかどうかを判断する。
OCEANを評価するために、現実世界のユースケースにおける著者帰属システムの性能を向上させるためのCONANと、そのようなシステムの評価の堅牢性を高めるSNOOPYという、新しい現実的なデータセットを紹介した。
CONANを使ってモデルをトレーニングし、SNOOPY(完全に見えないデータセット)で評価し、高いコンパイラ最適化を使用してもAUROCスコアは0.86となる。
さらに、これまで使用されていたGoogle Code Jamデータセットと比較して、CONANはパフォーマンスを7%改善することを示す。
さらにOCEANは、ソースコードを解析するシナリオにおいて、従来のメソッドよりもパフォーマンスが高く、最先端のSCS-Ganよりも10%改善されている。
さらに、OCEANはソフトウェアアップデートで未知の著者からコードインジェクションを検出でき、ソフトウェアサプライチェーンの確保の価値を強調できる。
関連論文リスト
- Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - BitsAI-CR: Automated Code Review via LLM in Practice [16.569842114384233]
BitsAI-CRは、2段階のアプローチを通じてコードレビューを強化する革新的なフレームワークである。
システムはレビュールールの包括的な分類に基づいて構築され、データフライホイール機構を実装している。
実証評価はBitsAI-CRの有効性を示し、レビューコメント生成において75.0%の精度を達成した。
論文 参考訳(メタデータ) (2025-01-25T08:39:50Z) - Correctness Assessment of Code Generated by Large Language Models Using Internal Representations [4.32362000083889]
大規模言語モデル(LLM)が生成するコードの正確性を評価する新しいフレームワークであるOPENIAを紹介する。
我々の経験的分析により、これらの内部表現が潜時情報を符号化し、生成したコードの正しさと強く相関していることが明らかとなった。
OPENIAはベースラインモデルより一貫して優れており、高い精度、精度、リコール、F1スコアを実現し、スタンドアロンコード生成の最大2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-01-22T15:04:13Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - SecCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [47.11178028457252]
我々はGenAIのリスクをコードする統合的かつ包括的な評価プラットフォームSecCodePLTを開発した。
安全でないコードには、専門家と自動生成を組み合わせたデータ生成のための新しい方法論を導入する。
サイバー攻撃支援のために、我々はモデルに実際の攻撃を引き起こすよう促すサンプルと、我々の環境における動的な指標を構築した。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Source Code Foundation Models are Transferable Binary Analysis Knowledge Bases [9.422025563792818]
人間指向バイナリリバースエンジニアリング(Human-Oriented Binary Reverse Engineering)は、ソースコードに関連する可読性のあるコンテンツにバイナリコードを持ち上げることを目的としている。
本稿では,バイナリソースエンコーダデコーダモデルと,バイナリ解析のためのブラックボックスLCMを組み込んだ新しいプローブ・アンド・リカバリフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T00:17:44Z) - Software Metadata Classification based on Generative Artificial
Intelligence [0.0]
本稿では、生成人工知能(AI)を用いたバイナリコードコメント品質分類モデルの性能向上のための新しいアプローチを提案する。
OpenAI APIを活用することで、新たに生成した1239のコード補完ペアからなるデータセットを、“Useful”あるいは“Not Useful”とラベル付けした。
その結果,ソフトウェア開発分野や品質保証分野の幅広い文脈における適用性を示すとともに,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-14T07:38:16Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。