論文の概要: GoCoMA: Hyperbolic Multimodal Representation Fusion for Large Language Model-Generated Code Attribution
- arxiv url: http://arxiv.org/abs/2604.16377v2
- Date: Fri, 24 Apr 2026 12:26:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.94261
- Title: GoCoMA: Hyperbolic Multimodal Representation Fusion for Large Language Model-Generated Code Attribution
- Title(参考訳): GoCoMA: 大規模言語モデル生成コード属性のための双曲型マルチモーダル表現融合
- Authors: Nitin Choudhury, Bikrant Bikram Pratap Maurya, Bhavinkumar Vinodbhai Kuwar, Arun Balaji Buduru,
- Abstract要約: GoCoMAは、ハイパーボリックなポアンカレボールにモダリティの埋め込みを投影するフレームワークである。
GoCoMAは、同じ評価プロトコルの下で、ユニモダルとユークリッドのマルチモーダルベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 7.244731714427563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) trained on massive code corpora are now increasingly capable of generating code that is hard to distinguish from human-written code. This raises practical concerns, including security vulnerabilities and licensing ambiguity, and also motivates a forensic question: 'Who (or which LLM) wrote this piece of code?' We present GoCoMA, a multimodal framework that models an extrinsic hierarchy between (i) code stylometry, capturing higher-level structural and stylistic signatures, and (ii) image representations of binary pre-executable artifacts (BPEA), capturing lower-level, execution-oriented byte semantics shaped by compilation and toolchains. GoCoMA projects modality embeddings into a hyperbolic Poincaré ball, fuses them via a geodesic-cosine similarity-based cross-modal attention (GCSA) fusion mechanism, and back-projects the fused representation to Euclidean space for final LLM-source attribution. Experiments on two open-source benchmarks (CoDET-M4 and LLMAuthorBench) show that GoCoMA consistently outperforms unimodal and Euclidean multimodal baselines under identical evaluation protocols.
- Abstract(参考訳): 大規模なコードコーパスでトレーニングされた大規模言語モデル(LLM)は、人手によるコードと区別が難しいコードを生成する能力がますます高まっている。
これは、セキュリティの脆弱性やライセンスの曖昧さなど、現実的な懸念を提起すると同時に、法医学的な疑問も提起している。
外部階層をモデル化するマルチモーダルフレームワークであるGoCoMAを提案する。
一 コードスタイメトリー、高階構造及びスタイリスティックシグネチャの取得、及び
(ii)バイナリ事前実行可能なアーティファクト(BPEA)の画像表現。コンパイルとツールチェーンによって形成される低レベルの実行指向のバイトセマンティクスをキャプチャする。
GoCoMAは、双曲ポアンカレ球にモダリティの埋め込みを計画し、ジオデシック・コサイン類似性に基づくクロスモーダルアテンション(GCSA)融合機構を通じてそれらを融合させ、最終 LLM-ソース属性のためにユークリッド空間への融合表現をバックプロジェクションする。
2つのオープンソースベンチマーク (CoDET-M4 と LLMAuthorBench) の実験により、GoCoMA は、同一の評価プロトコルの下で、ユニモダルとユークリッドのマルチモーダルベースラインを一貫して上回っていることが示されている。
関連論文リスト
- Multi-CoLoR: Context-Aware Localization and Reasoning across Multi-Language Codebases [1.4216413758677147]
マルチ言語間におけるコンテキスト認識のローカライゼーションと推論のためのフレームワークであるMulti-CoLoRを提案する。
複雑なソフトウェアエコシステムを横断するために、組織的知識検索とグラフベースの推論を統合する。
論文 参考訳(メタデータ) (2026-02-23T00:54:59Z) - ThinkGen: Generalized Thinking for Visual Generation [97.19923474851987]
ThinkGenは、さまざまな世代のシナリオでChain-of-Thought(CoT)推論を明示的に活用する、思考駆動のビジュアル生成フレームワークである。
本稿では,MLLMとDiTモジュール間の強化学習を交互に行う,分離可能なGRPOベースのトレーニングパラダイムを提案する。
実験の結果、ThinkGenは複数の世代ベンチマークで堅牢で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-29T16:08:50Z) - UniCoR: Modality Collaboration for Robust Cross-Language Hybrid Code Retrieval [21.36577755250534]
我々はUniCoRを提案し、Uniified Code Representationsフレームワークを学習し、統一的で堅牢なコード表現を学習する。
我々は,UniCoRがすべてのベースラインモデルより優れており,MRRが8.64%,MAPが11.54%向上していることを示す。
UniCoRは、クロス言語シナリオにおけるハイブリッドコード検索と一般化機能の安定性を示す。
論文 参考訳(メタデータ) (2025-12-11T09:15:38Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning [13.193184888476404]
統合マルチモーダルコード生成モデルである textbfciCoder を導入する。
まず、1.6Mイメージコードペアからなる大規模スーパービジョンファインタニング(SFT)コーパスを構築する。
次に,ビジュアル強化学習(ViRL)戦略を導入する。
論文 参考訳(メタデータ) (2025-11-01T04:05:26Z) - Evaluating Large Language Models for Functional and Maintainable Code in Industrial Settings: A Case Study at ASML [3.5515013986822073]
本研究は,Aのレベル管理部門と共同で実施した事例研究である。
閉鎖的,高度に専門化されたソフトウェア環境において,機能的,保守性のあるコードを生成する上でのLLMの性能について検討する。
その結果、プロンプト技術とモデルサイズが出力品質に重大な影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-15T19:39:26Z) - Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [70.04746094652653]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。
PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。
次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文 参考訳(メタデータ) (2025-04-24T01:57:01Z) - Coding by Design: GPT-4 empowers Agile Model Driven Development [0.03683202928838613]
この研究は、アジャイルモデル駆動開発(MDD)アプローチを提供し、OpenAIのGPT-4を使ってコードの自動生成を強化する。
私たちの研究は、現行のMDDメソッドへの重要な貢献として"アジリティ"を強調しています。
最終的に、GPT-4を利用して、最後のレイヤはJavaとPythonの両方でコードを自動生成します。
論文 参考訳(メタデータ) (2023-10-06T15:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。