論文の概要: Fine-Tuning Pre-Trained Code Models for AI-Generated Code Detection
- arxiv url: http://arxiv.org/abs/2605.01596v1
- Date: Sat, 02 May 2026 20:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.844911
- Title: Fine-Tuning Pre-Trained Code Models for AI-Generated Code Detection
- Title(参考訳): AI生成符号検出のための微調整事前学習符号モデル
- Authors: Jany-Gabriel Ispas, Sergiu Nisioi,
- Abstract要約: サブタスクごとに異なる戦略で、トレーニング済みの4つのモデルを微調整します。
Subtask-A では,言語間相互検証,コード拡張,トリミング平均アグリゲーションによるチャンク付き推論,しきい値のキャリブレーションを併用する。
Subtask-Bでは、サンドイッチトークンパッキング、クラスバランス損失、テスト時間拡張によるマルチシードアンサンブルを使用する。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the system submitted by team \textbf{Archaeology} to SemEval-2026 Task~13 on AI-generated code detection. The shared task consists of three subtasks; we participate in Subtask-A (binary classification: human-written vs.\ AI-generated code) and Subtask-B (11-class attribution of the generating model). Starting from a TF-IDF and Logistic Regression baseline, we fine-tune four pre-trained code models (CodeBERT, GraphCodeBERT, UniXcoder, and CodeT5+) with separate strategies for each subtask. For Subtask-A, we use leave-one-language-out cross-validation, code augmentation, chunked inference with trimmed-mean aggregation, and threshold calibration on a difficult dataset. For Subtask-B, we use sandwich token packing, class-balanced loss, and multi-seed ensembling with test-time augmentation. Our best submissions obtain macro-F1 scores of 0.737 on Subtask-A (6th/81 teams) and 0.422 on Subtask-B (7th/34 teams).
- Abstract(参考訳): 本稿では,AI生成コード検出におけるSemEval-2026 Task~13に対して,Team \textbf{Archaeology}が提出したシステムについて述べる。
共有タスクは,3つのサブタスクから構成される。
\AI生成コード)とSubtask-B(生成モデルの11クラス属性)。
TF-IDFとロジスティック回帰ベースラインから始まり、各サブタスクごとに4つの事前訓練されたコードモデル(CodeBERT、GraphCodeBERT、UniXcoder、CodeT5+)を微調整します。
Subtask-Aでは、残留言語によるクロスバリデーション、コード拡張、トリミング平均アグリゲーションによるチャンク付き推論、難解なデータセットのしきい値キャリブレーションを用いる。
Subtask-Bでは、サンドイッチトークンパッキング、クラスバランス損失、テスト時間拡張によるマルチシードアンサンブルを使用する。
私たちはSubtask-A(6位/81チーム)で0.737、Subtask-B(7位/34チーム)で0.422のマクロF1スコアを取得しました。
関連論文リスト
- QU-NLP at ArchEHR-QA 2026: Two-Stage QLoRA Fine-Tuning of Qwen3-4B for Patient-Oriented Clinical Question Answering and Evidence Sentence Alignment [1.0152838128195467]
本稿では,ArchEHR-QA共有タスクのサブタスク3(回答生成)とサブタスク4(証拠文アライメント)の両方に対処する統一システムを提案する。
Subtask 3では、4ビットNF4量子化でロードされたQwen3-4Bに2段階の量子化低ランク適応(QLoRA)を適用する。
Subtask 4では,相対しきい値付きBM25,TF-IDFコサイン類似度,微調整型クロスエンコーダの3種類の検索手法の重み付けアンサンブルを開発した。
論文 参考訳(メタデータ) (2026-03-26T11:24:13Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - SemEval-2024 Task 8: Multidomain, Multimodel and Multilingual Machine-Generated Text Detection [68.858931667807]
Subtask Aは、テキストが人間によって書かれたか、機械によって生成されたかを決定するバイナリ分類タスクである。
サブタスクBは、テキストの正確なソースを検出し、それが人間によって書かれたか、特定のLCMによって生成されたかを認識する。
Subtask Cは、著者が人間から機械へ遷移するテキスト内の変化点を特定することを目的としている。
論文 参考訳(メタデータ) (2024-04-22T13:56:07Z) - AISPACE at SemEval-2024 task 8: A Class-balanced Soft-voting System for Detecting Multi-generator Machine-generated Text [0.0]
SemEval-2024 Task 8は、人書きテキストと機械生成テキストを検出するための課題を提供する。
本稿では,主にSubtask Bを扱うシステムを提案する。
これは、与えられた全文が人間によって書かれたか、あるいは、実際にはマルチクラスのテキスト分類タスクである特定のLarge Language Model (LLM)によって生成されるかを検出することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T06:25:47Z) - CL-UZH at SemEval-2023 Task 10: Sexism Detection through Incremental
Fine-Tuning and Multi-Task Learning with Label Descriptions [0.0]
SemEval shared task textitTowards Explainable Detection of Online Sexism (EDOS 2023)は、英語のソーシャルメディア投稿で性差別を検出することを目的としている。
本稿では,3つのサブタスクすべてに対して,関連するタスクを微調整したマルチタスクモデルに基づく提案システムを提案する。
我々は、各タスクをバイナリペアテキスト分類として定式化し、入力テキストとともにデータセットとラベル記述が与えられるマルチタスク学習を実装した。
論文 参考訳(メタデータ) (2023-06-06T17:59:49Z) - Multimodal Subtask Graph Generation from Instructional Videos [51.96856868195961]
実世界のタスクは複数の相互依存サブタスクから構成される。
本研究では,タスクを記述する指導ビデオから,そのようなサブタスク間の因果関係をモデル化することを目的とする。
マルチモーダルなサブタスクグラフ生成(MSG2)を提案する。これは、ノイズの多いWebビデオからタスクに関連するタスクのサブタスク間の依存性を定義するサブタスクグラフを構築するアプローチである。
論文 参考訳(メタデータ) (2023-02-17T03:41:38Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - UPB at SemEval-2020 Task 6: Pretrained Language Models for Definition
Extraction [0.17188280334580194]
本研究はSemEval-2020: Extracting Definitions from Free Text in Textbooksの6番目のタスクの文脈における我々の貢献を示す。
様々な事前訓練された言語モデルを用いて、競技の3つのサブタスクのそれぞれを解決する。
DeftEvalデータセットで評価したベストパフォーマンスモデルは、第1サブタスクの32位、第2サブタスクの37位を得る。
論文 参考訳(メタデータ) (2020-09-11T18:36:22Z) - BUT-FIT at SemEval-2020 Task 5: Automatic detection of counterfactual
statements with deep pre-trained language representation models [6.853018135783218]
本稿では,BUT-FITによるSemEval-2020 Task 5: Modelling Causal Reasoning in Language: Detecting Counterfactualsについて述べる。
課題は、ある文が偽物を含むかどうかを検出することである。
どちらのサブタスクでも,RoBERTa LRMが最善を尽くすことがわかった。
論文 参考訳(メタデータ) (2020-07-28T11:16:11Z) - Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic
Conditional Random Fields [67.51177964010967]
異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。
タスク予測間の相互依存性の明示的モデリングは、通常のマルチタスクモデルと同様にシングルタスクよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T07:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。