論文の概要: FMI_SU_Yotkova_Kastreva at SemEval-2026 Task 13: Lightweight Detection of LLM-Generated Code via Stylometric Signals
- arxiv url: http://arxiv.org/abs/2605.04157v1
- Date: Tue, 05 May 2026 18:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.468485
- Title: FMI_SU_Yotkova_Kastreva at SemEval-2026 Task 13: Lightweight Detection of LLM-Generated Code via Stylometric Signals
- Title(参考訳): FMI_SU_Yotkova_Kastreva at SemEval-2026 Task 13: Lightweight Detection of LLM-Generated code via Stylometric Signals
- Authors: Elitsa Yotkova, Violeta Kastreva, Dimitar Dimitrov, Ivan Koychev, Preslav Nakov,
- Abstract要約: SemEval-2026 Task 13は、複数のプログラミング言語とアプリケーションシナリオにわたるマシン生成コードの検出を調査する。
本稿では,Subtask A(バイナリ分類)への参加について述べるとともに,事前訓練されたコードエンコーダと軽量機能ベースの手法について検討する。
- 参考スコア(独自算出の注目度): 42.82186147670303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SemEval-2026 Task 13 investigates machine-generated code detection across multiple programming languages and application scenarios, asking participating systems to generalize to unseen languages and domains. This paper describes our participation in Subtask A (binary classification) and explores both pretrained code encoders and lightweight feature-based methods. We design ratio-based features that are less sensitive to snippet length. To support the extraction of descriptiveness-related signals, we use parsing engines and a programming-language classifier. Additionally, we train a separate code-vs-text line classifier to identify raw natural language segments embedded within samples. We combine a shallow decision tree with heuristic rules derived from data analysis to produce the final predictions. Our approach is computationally efficient, requires only CPU resources for training, and achieves near-instant inference time, offering a lightweight alternative to large pretrained models.
- Abstract(参考訳): SemEval-2026 Task 13は、複数のプログラミング言語とアプリケーションシナリオにわたるマシン生成コードの検出を調査し、参加するシステムに対して、目に見えない言語やドメインへの一般化を求める。
本稿では,Subtask A(バイナリ分類)への参加について述べるとともに,事前訓練されたコードエンコーダと軽量機能ベースの手法について検討する。
我々はスニペットの長さに敏感でない比率に基づく特徴を設計する。
記述性関連信号の抽出を支援するために,解析エンジンとプログラム言語分類器を用いる。
さらに、サンプルに埋め込まれた生の自然言語セグメントを識別するために、別個のコード-vs-text行分類器を訓練する。
浅い決定木とデータ解析から得られたヒューリスティックなルールを組み合わせ、最終的な予測を生成する。
我々のアプローチは計算的に効率的であり、トレーニングにはCPUリソースのみが必要であり、大規模な事前学習モデルの軽量な代替手段として、ほぼ瞬時に推論時間を達成する。
関連論文リスト
- Semantic Source Code Segmentation using Small and Large Language Models [2.5748316361772963]
本稿では,Large and Small Language Models (LLMs/SLMs) を用いた研究Rコードセグメンテーションのためのドメイン固有自動手法を提案する。
文脈を用いた線毎解析と範囲に基づくセグメント決定の2つの異なるアプローチについて検討する。
この結果から,コンテキストベースライン・バイ・ライン分析の方が範囲ベースセグメンテーションよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-07-11T19:49:59Z) - Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。
ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。
与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:23:37Z) - Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Adaptable and Reliable Text Classification using Large Language Models [7.962669028039958]
本稿では,Large Language Models(LLMs)を活用した適応的で信頼性の高いテキスト分類パラダイムを提案する。
我々は、4つの多様なデータセット上で、複数のLLM、機械学習アルゴリズム、ニューラルネットワークベースのアーキテクチャの性能を評価した。
システムの性能は、少数ショットや微調整の戦略によってさらに向上することができる。
論文 参考訳(メタデータ) (2024-05-17T04:05:05Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - A Hierarchical Model for Spoken Language Recognition [29.948719321162883]
音声言語認識(SLR)とは、音声サンプルに含まれる言語を決定するための自動処理である。
本稿では,2つのPLDAモデルを訓練し,その1つは高関係言語クラスタのスコアを生成し,もう1つは各クラスタに条件付きスコアを生成するという新しい階層的アプローチを提案する。
この階層的アプローチは、高度に関連性の高い言語を検出する非階層的アプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-04T22:10:36Z) - Multimodal Representation for Neural Code Search [18.371048875103497]
本稿では,AST の簡易な形式でツリーシリアライズ手法を導入し,コードデータのマルチモーダル表現を構築する。
この結果から,木をシリアライズした表現とマルチモーダル学習モデルの両方がニューラルコード検索の性能を向上させることがわかった。
論文 参考訳(メタデータ) (2021-07-02T12:08:19Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。