論文の概要: UCSC-NLP at SemEval-2026 Task 13: Multi-View Generalization and Diagnostic Analysis of Machine-Generated Code Detection
- arxiv url: http://arxiv.org/abs/2604.26990v1
- Date: Tue, 28 Apr 2026 21:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.701785
- Title: UCSC-NLP at SemEval-2026 Task 13: Multi-View Generalization and Diagnostic Analysis of Machine-Generated Code Detection
- Title(参考訳): UCSC-NLP at SemEval-2026 Task 13: Multi-View Generalization and Diagnostic Analysis of Machine-Generated Code Detection
- Authors: Kargi Chauhan, Sadiba Nusrat Nur,
- Abstract要約: 本稿では,人書きコードとAI生成コードとを区別するシステムを提案する。
Subtask Aでは、ジェネレータ不変表現を促進するマルチビュートレーニングフレームワークでUniXcoder-baseを微調整します。
サブタスクBでは,重度のクラス不均衡が致命的なマイノリティクラス障害を引き起こすことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid growth of large language models for code generation, distinguishing between human-written and AI-generated code has become increasingly critical for academic integrity, hiring evaluations, and software security. We present our system for SemEval-2026 Task 13: Multilingual Machine-Generated Code Detection, participating in Subtask A (binary detection) and Subtask B (multi-class attribution across 10 LLM families). For Subtask A, we fine-tune UniXcoder-base with a multi-view training framework that promotes generator-invariant representations. The framework combines domain-specific structural prefixes, delexicalization with symmetric KL consistency loss, token dropout, and mixed-content augmentation. Our system achieves 0.993 macro F1 on validation and 0.845 macro F1 on the test set, which spans unseen languages and domains. For Subtask B, we show that severe class imbalance (88.4% human code, 221:1 majority-to-minority ratio) causes catastrophic minority-class failure under standard fine-tuning, with macro F1 collapsing to 0.086 despite 88.4% accuracy. A class-weighted extension trained for 3 epochs recovers macro F1 to 0.345 (+301% relative), confirming that multi-class attribution requires imbalance-aware training strategies.
- Abstract(参考訳): コード生成のための大規模言語モデルの急速な成長に伴い、人間の書いたコードとAI生成コードの区別は、学術的整合性、採用評価、ソフトウェアセキュリティにとってますます重要になっている。
本稿では,SemEval-2026 Task 13: Multilingual Machine-Generated Code Detection, part in Subtask A (binary detection) and Subtask B (multi-class attribution across 10 LLM family)について述べる。
Subtask Aでは、ジェネレータ不変表現を促進するマルチビュートレーニングフレームワークでUniXcoder-baseを微調整します。
このフレームワークはドメイン固有の構造的接頭辞と、対称的なKL整合損失、トークンのドロップアウト、混合コンテンツ拡張を組み合わせたものである。
本システムでは,検証に0.993マクロF1,テストセットに0.845マクロF1を実現し,未確認言語やドメインにまたがる。
Subtask B では、88.4%の精度にもかかわらずマクロ F1 が 0.086 に崩壊し、深刻な階級不均衡 (88.4% の人的コード、221:1 の少数派-マイノリティ比) が致命的なマイノリティクラス障害を引き起こすことを示した。
3つのエポックで訓練されたクラス重み付き拡張はマクロF1を0.345(+301%)まで回復させ、マルチクラスの属性が不均衡なトレーニング戦略を必要とすることを確認した。
関連論文リスト
- Error Understanding in Program Code With LLM-DL for Multi-label Classification [0.0]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクにおいて顕著な能力を示している。
本研究では,微調整 LLM を利用したソースコードの多ラベル誤り分類フレームワークを提案する。
この作業は、自動化されたコードフィードバックのためのインテリジェントでスケーラブルなツール開発の基礎を築いた。
論文 参考訳(メタデータ) (2026-03-26T04:05:42Z) - CLASP: Defending Hybrid Large Language Models Against Hidden State Poisoning Attacks [48.54598003197356]
Mambaのような状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として大きな注目を集めている。
HiSPAsは、最近発見された脆弱性で、敵対する文字列を通じてSSMメモリを破損させる。
この脅威に対して防御するためのCLASPモデルを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:29:55Z) - IMOVNO+: A Regional Partitioning and Meta-Heuristic Ensemble Framework for Imbalanced Multi-Class Learning [5.693705818399956]
クラス不均衡、重複、ノイズによりデータ品質が低下し、モデルの信頼性が低下し、一般化が制限される。
本稿では,データ品質とアルゴリズム的ロバスト性を向上させるためのフレームワークであるIMOVNO+を提案する。
その結果、最先端手法よりも一貫した優位性を示し、いくつかのケースでは100%に近づいた。
論文 参考訳(メタデータ) (2026-02-22T08:13:51Z) - UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model [50.68870074090426]
我々はUniWeTokを紹介した。UniWeTokはUniified Multimodal Large Language Modelsのための統一された離散トークンである。
トレーニングフレームワークとして,個別トークンのセマンティックな抽出と生成を促進するために,プレポスト蒸留とジェネレーティブ・アウェア・プレファレンスを導入する。
我々は,UniWeTokの適応性を高めるために,様々な画像解像度と知覚に敏感なシナリオを横断する3段階のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:07:19Z) - SEER: Spectral Entropy Encoding of Roles for Context-Aware Attention-Based Design Pattern Detection [0.0]
本稿では,ソースコードからGang of Four(GoF)デザインパターンを検出するために,従来のContext Is All You Needのアップグレード版を提案する。
SEERはこれらの制限に、(i)各クラスの相互作用グラフのラプラシアンスペクトルからメンバーごとのロール埋め込みを導出するスペクトルエントロピーロールエンコーダ、(ii)メソッドカテゴリに経験的校正期間を割り当てる時間重呼出コンテキストの2つの原則で対処する。
PyDesignNet上のSEER(1,832ファイル、35,000のシーケンス、23のGoFパターン)を評価し、以前のシステムよりも一貫した利得を観察する。
論文 参考訳(メタデータ) (2026-01-19T19:13:40Z) - SeBERTis: A Framework for Producing Classifiers of Security-Related Issue Reports [8.545800179148442]
SEBERTISは、Deep Neural Networks(DNN)を語彙的キューに依存しない分類器として訓練するフレームワークである。
当社のフレームワークは,1万件のGitHubイシューレポートをキュレートしたコーパスのセキュリティ関連問題を検出する上で,0.9880のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-12-17T01:23:11Z) - Fully Autonomous Programming using Iterative Multi-Agent Debugging with Large Language Models [8.70160958177614]
大言語モデル(LLM)を用いたプログラム合成は「ニアミス症候群」に苦しむ
我々は、SEIDR(Synthesize, Execute, Instruct, Debug and repair)と呼ばれるマルチエージェントフレームワークでこの問題に対処する。
代替に焦点を当てた、修復に焦点を当てた、ハイブリッドなデバッグ戦略を比較することで、これらのトレードオフを実証的に探求します。
論文 参考訳(メタデータ) (2025-03-10T16:56:51Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Meta-Generating Deep Attentive Metric for Few-shot Classification [53.07108067253006]
本稿では,新しい数ショット学習タスクのための特定のメトリックを生成するための,新しい深度メタジェネレーション手法を提案する。
本研究では,各タスクの識別基準を生成するのに十分なフレキシブルな3層深い注意ネットワークを用いて,メトリクスを構造化する。
特に挑戦的なケースでは、最先端の競合他社よりも驚くほどパフォーマンスが向上しています。
論文 参考訳(メタデータ) (2020-12-03T02:07:43Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。