論文の概要: TriFusion-LLM: Prior-Guided Multimodal Fusion with LLM Arbitration for Fine-grained Code Clone Detection
- arxiv url: http://arxiv.org/abs/2603.15004v1
- Date: Mon, 16 Mar 2026 09:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.902217
- Title: TriFusion-LLM: Prior-Guided Multimodal Fusion with LLM Arbitration for Fine-grained Code Clone Detection
- Title(参考訳): TriFusion-LLM: 微細コードクローン検出のためのLLMアービテーションを用いた先導マルチモーダル核融合
- Authors: Mengdi Li, Yuming Liu, He Wang, Zifeng Xu, Yuqing Zhang,
- Abstract要約: Full Modelはコードクローン検出のためのマルチモーダル融合フレームワークである。
推論コストを実用的に保ちながら、きめ細かいクローン種の識別を改善する。
Full Modelは、きめ細かいCCDのための効果的なパフォーマンスコストトレードオフを実現する。
- 参考スコア(独自算出の注目度): 15.824017693868045
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code clone detection (CCD) supports software maintenance, refactoring, and security analysis. Although pre-trained models capture code semantics, most work reduces CCD to binary classification, overlooking the heterogeneity of clone types and the seven fine-grained categories in BigCloneBench. We present Full Model, a multimodal fusion framework that jointly integrates heuristic similarity priors from classical machine learning, structural signals from abstract syntax trees (ASTs), and deep semantic embeddings from CodeBERT into a single predictor. By fusing structural, statistical, and semantic representations, Full Model improves discrimination among fine-grained clone types while keeping inference cost practical. On the seven-class BigCloneBench benchmark, Full Model raises Macro-F1 from 0.695 to 0.875. Ablation studies show that using the primary model's probability distribution as a prior to guide selective arbitration by a large language model (LLM) substantially outperforms blind reclassification; arbitrating only ~0.2% of high-uncertainty samples yields an additional 0.3 absolute Macro-F1 gain. Overall, Full Model achieves an effective performance-cost trade-off for fine-grained CCD and offers a practical solution for large-scale industrial deployment.
- Abstract(参考訳): コードクローン検出(CCD)は、ソフトウェアのメンテナンス、リファクタリング、セキュリティ解析をサポートする。
事前訓練されたモデルは、コードセマンティクスをキャプチャするが、ほとんどの研究は、クローンタイプの不均一性とBigCloneBenchの7つのきめ細かいカテゴリを見越して、CCDをバイナリ分類に還元する。
本稿では,従来の機械学習のヒューリスティックな類似性,抽象構文木(AST)の構造的信号,CodeBERTから1つの予測子への深いセマンティック埋め込みを併用したマルチモーダル融合フレームワークであるFull Modelを紹介する。
構造的、統計的、意味的な表現を融合させることで、Full Modelは推論コストを実用的に保ちながら、きめ細かいクローン型の識別を改善する。
7クラスのBigCloneBenchベンチマークでは、Full ModelはMacro-F1を0.695から0.875に引き上げている。
アブレーション研究では、一次モデルの確率分布を先行して、大きな言語モデル(LLM)による選択的仲裁(英語版)を導くことは、ブラインド再分類を著しく上回り、高い不確実性サンプルの約0.2%は、さらに0.3の絶対的なマクロ-F1ゲインをもたらすことが示されている。
全体として、Full Modelは細粒度CCDの効果的なパフォーマンスコストトレードオフを実現し、大規模産業展開のための実用的なソリューションを提供する。
関連論文リスト
- CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection [2.8547732086436306]
教師付きディープラーニングの基本的限界は「一般化崩壊」である
階層型2段階表現学習フレームワークであるLatent Sculptingを提案する。
我々は「浸潤」のシナリオについて88.89%の検知率を報告した。
論文 参考訳(メタデータ) (2025-12-19T11:37:02Z) - Cross-Domain Malware Detection via Probability-Level Fusion of Lightweight Gradient Boosting Models [0.0]
本稿では,3つの異なるデータセットにまたがる確率レベル融合を利用したマルウェア検出のための新しいフレームワークを提案する。
提案手法は,各データセット上で個々のLightGBM分類器を訓練し,効率性を確保するために最上位の予測特徴を選択し,グリッドサーチによって決定された最適化重みを用いて予測確率を融合する。
実験により,我々の融合アプローチは,ドメイン間検証セット上で0.823のマクロF1スコアを実現し,個々のモデルよりも大幅に優れ,より優れた一般化を提供することを示した。
論文 参考訳(メタデータ) (2025-08-30T12:18:13Z) - Cross-BCI, A Cross-BCI-Paradigm Classifica-tion Model Towards Universal BCI Applications [0.0]
本研究では,クロスBCIパラダイム分類のための軽量で統一化された復号モデルを提案する。
その結果,提案モデルは精度,マクロ精度,マクロロリコール,マクロF1スコアに対して88.39%,82.36%,80.01%,0.8092を達成した。
論文 参考訳(メタデータ) (2025-08-12T16:04:50Z) - Fraud is Not Just Rarity: A Causal Prototype Attention Approach to Realistic Synthetic Oversampling [6.184770966699034]
Causal Prototype Attention (CPAC)は、クラス認識クラスタリングを促進し、潜在空間構造を改善した解釈可能なアーキテクチャである。
CPACは優れた性能を示し、93.14%のF1スコア、90.18%のリコールを達成した。
論文 参考訳(メタデータ) (2025-07-19T17:51:54Z) - CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文 参考訳(メタデータ) (2025-02-25T13:09:34Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。