論文の概要: MACAA: Belief-Revision Multi-Agent Reasoning for Open-World Code Authorship Verification
- arxiv url: http://arxiv.org/abs/2605.09421v1
- Date: Sun, 10 May 2026 08:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.254109
- Title: MACAA: Belief-Revision Multi-Agent Reasoning for Open-World Code Authorship Verification
- Title(参考訳): MACAA: オープンワールドのコードオーサシップ検証のためのマルチエージェント推論
- Authors: Jingwei Ye, Zhi Wang, Xin Li, Cong Gao, Chenbin Su, Jieshuai Yang, Jianfei Tang, Ge Chu,
- Abstract要約: 学習不要なコードオーサシップ検証のための,信念修正に基づくマルチエージェントフレームワークであるMACAAを提案する。
MACAAはコーディネーターと4人の専門家エージェントで構成され、レイアウト、語彙、構文、プログラミングパターンのエビデンスを分析している。
MACAAは、同言語ベンチマークで89.15%のF1、混合言語ペアで80.00%を獲得し、すべてのベースラインを超えた。
- 参考スコア(独自算出の注目度): 8.089784374872744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code authorship attribution (CAA) supports software forensics, plagiarism detection, and intellectual property protection. However, existing supervised CAA approaches suffer from scarce training data and closed-world assumptions: they require sufficient labeled code from fixed candidate-author sets, making training difficult in low-data cases and predictions unreliable for open-world test pairs with unseen samples, or heterogeneous code pairs. Large language models remove task-specific training, but direct prompting depends on costly expert-designed prompts, can hallucinate over complex heterogeneous code pairs, and rarely yields auditable evidence traces. We propose MACAA, a belief-revision-based multi-agent framework for training-free code authorship verification. MACAA comprises a Coordinator and four Expert Agents analyzing layout, lexical, syntactic, and programming-pattern evidence. The Coordinator gathers expert signals for expansion, discounts unreliable evidence through contraction, and resolves conflicts through revision to preserve belief consistency, replacing direct LLM judgment with auditable hypothesis refinement. MACAA achieves 89.15\% F1 on same-language benchmarks and 80.00\% on mixed cross-language pairs, surpassing all baselines.
- Abstract(参考訳): コードオーサシップ属性(CAA)は、ソフトウェア鑑定、盗作検出、知的財産保護をサポートする。
しかし、既存の教師付きCAAアプローチは、不足したトレーニングデータとクローズドワールドの仮定に悩まされている。それらは、固定された候補-オーサリングセットから十分なラベル付きコードを必要とするため、低データケースではトレーニングが困難であり、未確認サンプルや異種コードペアを持つオープンワールドテストペアには信頼性が低い。
大きな言語モデルはタスク固有のトレーニングを取り除くが、直接のプロンプトは、高価な専門家が設計したプロンプトに依存し、複雑な異種コードペアを幻覚させ、監査可能なエビデンストレースを得ることは滅多にない。
学習不要なコードオーサシップ検証のための,信念修正に基づくマルチエージェントフレームワークであるMACAAを提案する。
MACAAはコーディネーターと4人の専門家エージェントで構成され、レイアウト、語彙、構文、プログラミングパターンのエビデンスを分析している。
コーディネーターは、拡張のための専門家の信号を集め、契約を通じて信頼できない証拠を割引し、信念の一貫性を維持するために修正を通じて紛争を解決し、直接のLCM判断を監査可能な仮説修正に置き換える。
MACAAは、同じベンチマークで89.15\% F1、混合言語対で80.00\%を達成する。
関連論文リスト
- AsmRAG: LLM-Driven Malware Detection by Retrieving Functionally Similar Assembly Code [1.2183405753834562]
本稿では,AsmRAGについて紹介する。
このシステムは、LLM(Code-specialized Large Language Model)を使用してアセンブリ関数を分析し、それらをセマンティックな埋め込みに変換する。
そこで本研究では,バイナリ内の悪意論理の一次単位を分離し,検証可能な法医学的証拠を抽出し,回避の試みに抵抗する密度重み付きアンカー選択機構を提案する。
論文 参考訳(メタデータ) (2026-04-25T08:05:50Z) - An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - VIBEPASS: Can Vibe Coders Really Pass the Vibe Check? [46.85901599242161]
emphFault-Triggering Test Generation(FT-Test)とemphFault-targeted Program repair(FPR)の2つの組み合わせタスクを評価した。
故障対象推論は一般的な符号化能力ではスケールしないことがわかった。
自己生成テストが障害の発見に成功すると、結果として得られた修復結果が外部から提供されたテストによってガイドされた修復と一致したり、性能が低下する。
論文 参考訳(メタデータ) (2026-03-16T21:14:28Z) - The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - CodeHacker: Automated Test Case Generation for Detecting Vulnerabilities in Competitive Programming Solutions [8.163435280190027]
既存のベンチマークは、しばしば微妙なコーナーケースのカバレッジを欠いているため、誤った解決策を通すことができる。
CodeHackerは、プログラムの提出中に潜伏する脆弱性を暴露する逆テストケースを生成する。
実験によると、CodeHackerは既存のデータセットのTrue Negative Rate(TNR)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-23T05:59:30Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。