論文の概要: DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text and Code
- arxiv url: http://arxiv.org/abs/2510.18904v1
- Date: Tue, 21 Oct 2025 00:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.225903
- Title: DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text and Code
- Title(参考訳): DuoLens: 機械生成多言語テキストとコードのロバスト検出のためのフレームワーク
- Authors: Shriyansh Agrawal, Aidan Lau, Sanyam Shah, Ahan M R, Kevin Zhu, Sunishchal Dev, Vasu Sharma,
- Abstract要約: 多言語テキストとソースコードを生成するLarge Language Models (LLMs) は、マシン生成コンテンツ検出器がドメイン全体にわたって正確かつ効率的であることの必須条件を増大させるだけである。
現在の検出器は、Fast DetectGPTやGPTZeroのようなゼロショット法を主に利用しており、高い計算コストまたは十分な精度が欠如している。
本稿では,エンコーダのみのSmall Language Models (SLM) の微調整,特にRoBERTAとCodeBERTaの事前学習モデルについて,ソースコードやその他の自然言語に関する特別なデータセットを用いて提案する。
- 参考スコア(独自算出の注目度): 5.38764489657443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalence of Large Language Models (LLMs) for generating multilingual text and source code has only increased the imperative for machine-generated content detectors to be accurate and efficient across domains. Current detectors, predominantly utilizing zero-shot methods, such as Fast DetectGPT or GPTZero, either incur high computational cost or lack sufficient accuracy, often with a trade-off between the two, leaving room for further improvement. To address these gaps, we propose the fine-tuning of encoder-only Small Language Models (SLMs), in particular, the pre-trained models of RoBERTA and CodeBERTa using specialized datasets on source code and other natural language to prove that for the task of binary classification, SLMs outperform LLMs by a huge margin whilst using a fraction of compute. Our encoders achieve AUROC $= 0.97$ to $0.99$ and macro-F1 $0.89$ to $0.94$ while reducing latency by $8$-$12\times$ and peak VRAM by $3$-$5\times$ at $512$-token inputs. Under cross-generator shifts and adversarial transformations (paraphrase, back-translation; code formatting/renaming), performance retains $\geq 92%$ of clean AUROC. We release training and evaluation scripts with seeds and configs; a reproducibility checklist is also included.
- Abstract(参考訳): 多言語テキストとソースコードを生成するためのLarge Language Models (LLMs) の普及は、マシン生成コンテンツ検出器がドメイン全体にわたって正確かつ効率的であることの必然性を高めただけである。
現在の検出器は、Fast DetectGPTやGPTZeroのようなゼロショット法を主に利用しており、高い計算コストまたは十分な精度が欠如している。
これらのギャップに対処するため、エンコーダのみの小型言語モデル(SLM)の微調整、特にRoBERTAとCodeBERTaの事前訓練モデルについて、ソースコードや他の自然言語上の特別なデータセットを用いて、二項分類のタスクにおいて、SLMは計算量を使いながらLLMをはるかに上回っていることを証明するために提案する。
私たちのエンコーダは AUROC $= 0.97$ to $0.99$ と macro-F1 $0.89$ to $0.94$ を達成します。
クロスジェネレータシフトと逆変換(言い換え、バックトランスレーション、コードフォーマッティング/リネーム)の下では、パフォーマンスは$\geq 92%のクリーンなAUROCを維持している。
我々は、種と構成によるトレーニングと評価スクリプトをリリースし、再現性チェックリストも含んでいます。
関連論文リスト
- On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。
1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。
これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文 参考訳(メタデータ) (2025-07-19T00:48:20Z) - Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality [3.9230690073443166]
近似的特徴アクティベーション(AFA)の定式化に基づく新しいアクティベーション関数 Top-AFA を導入する。
3つの中間層上のSAEをトレーニングして、OpenWebTextデータセットから8000万以上のトークンに対して、GPT2の隠れ埋め込みを再構築することにより、このアプローチの実証的なメリットを実演する。
論文 参考訳(メタデータ) (2025-03-31T16:22:11Z) - The Struggles of LLMs in Cross-lingual Code Clone Detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティ内で注目を集めている。
機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
言語間コードクローンの識別のための5つの大言語モデル (LLM) と8つのプロンプト (08) の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T12:57:14Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Stealing the Decoding Algorithms of Language Models [56.369946232765656]
現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。
本研究では,LMに典型的なAPIアクセスを持つ敵が,その復号アルゴリズムの型とハイパーパラメータを盗むことができることを示す。
我々の攻撃は、GPT-2、GPT-3、GPT-Neoなどのテキスト生成APIで使われる一般的なLMに対して効果的である。
論文 参考訳(メタデータ) (2023-03-08T17:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。