論文の概要: CelloAI: Leveraging Large Language Models for HPC Software Development in High Energy Physics
- arxiv url: http://arxiv.org/abs/2508.16713v1
- Date: Fri, 22 Aug 2025 15:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.142831
- Title: CelloAI: Leveraging Large Language Models for HPC Software Development in High Energy Physics
- Title(参考訳): CelloAI:高エネルギー物理におけるHPCソフトウェア開発のための大規模言語モデルを活用する
- Authors: Mohammad Atif, Kriti Chopra, Ozgur Kilic, Tianle Wang, Zhihua Dong, Charles Leggett, Meifeng Lin, Paolo Calafiura, Salman Habib,
- Abstract要約: 次世代の高エネルギー物理実験は前例のないデータ量を生成する。
次世代の高エネルギー物理(HEP)実験は前例のないデータ量を生成する。
- 参考スコア(独自算出の注目度): 2.4272174123587833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next-generation High Energy Physics (HEP) experiments will generate unprecedented data volumes, necessitating High Performance Computing (HPC) integration alongside traditional high-throughput computing. However, HPC adoption in HEP is hindered by the challenge of porting legacy software to heterogeneous architectures and the sparse documentation of these complex scientific codebases. We present CelloAI, a locally hosted coding assistant that leverages Large Language Models (LLMs) with retrieval-augmented generation (RAG) to support HEP code documentation and generation. This local deployment ensures data privacy, eliminates recurring costs and provides access to large context windows without external dependencies. CelloAI addresses two primary use cases, code documentation and code generation, through specialized components. For code documentation, the assistant provides: (a) Doxygen style comment generation for all functions and classes by retrieving relevant information from RAG sources (papers, posters, presentations), (b) file-level summary generation, and (c) an interactive chatbot for code comprehension queries. For code generation, CelloAI employs syntax-aware chunking strategies that preserve syntactic boundaries during embedding, improving retrieval accuracy in large codebases. The system integrates callgraph knowledge to maintain dependency awareness during code modifications and provides AI-generated suggestions for performance optimization and accurate refactoring. We evaluate CelloAI using real-world HEP applications from ATLAS, CMS, and DUNE experiments, comparing different embedding models for code retrieval effectiveness. Our results demonstrate the AI assistant's capability to enhance code understanding and support reliable code generation while maintaining the transparency and safety requirements essential for scientific computing environments.
- Abstract(参考訳): 次世代の高エネルギー物理(HEP)実験は前例のないデータボリュームを生成し、従来のハイスループットコンピューティングとHPC(High Performance Computing)の統合を必要とする。
しかし、HEPにおけるHPCの採用は、レガシーソフトウェアを異種アーキテクチャに移植することの難しさと、これらの複雑な科学的コードベースの疎結合なドキュメントによって妨げられている。
本稿では,Large Language Models (LLM) と検索拡張生成 (RAG) を併用して,HEPコードドキュメンテーションと生成をサポートする,ローカルにホストされたコーディングアシスタントであるCelloAIを紹介する。
このローカルデプロイメントはデータのプライバシを保証し、繰り返し発生するコストを排除し、外部依存関係のない大きなコンテキストウィンドウへのアクセスを提供する。
CelloAIは、特殊なコンポーネントを通じて、コードドキュメントとコード生成という、2つの主要なユースケースに対処する。
コードドキュメンテーションについて、アシスタントは次のように提供します。
(a)RAGソース(紙、ポスター、プレゼンテーション)から関連情報を検索することで、すべての機能及びクラスに対する酸素スタイルのコメント生成
(b)ファイルレベルの要約生成、および
(c)コード理解クエリのための対話型チャットボット。
コード生成では、CelloAIは構文を意識したチャンキング戦略を採用し、埋め込み中に構文境界を保ち、大規模なコードベースでの検索精度を向上させる。
このシステムはコールグラフの知識を統合して、コード修正時の依存性の認識を維持し、パフォーマンスの最適化と正確なリファクタリングのためのAI生成の提案を提供する。
我々は,ATLAS, CMS, DUNE実験による実世界のHEPアプリケーションを用いてCelloAIを評価し, コード検索の有効性について異なる埋め込みモデルを比較した。
本稿の結果は,科学計算環境に不可欠な透明性と安全性の要件を維持しつつ,コード理解と信頼性の高いコード生成を支援するAIアシスタントの能力を実証するものである。
関連論文リスト
- From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights [0.0]
本稿では,SBCスコアと呼ばれる新しいスコアリング機構を提案する。
これは、大規模言語モデルの自然言語生成能力を活用するリバースジェネレーション技術に基づいている。
直接コード解析とは異なり、我々のアプローチはAI生成コードからシステム要求を再構築し、元の仕様と比較する。
論文 参考訳(メタデータ) (2025-02-11T01:12:11Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Leveraging Large Language Models for Code Translation and Software Development in Scientific Computing [0.9668407688201359]
生成人工知能(GenAI)は、科学計算における生産性を変革する。
我々は、コード変換の効率的なプロセスを確立するために、プロンプトエンジニアリングとユーザ管理を組み合わせたCodeScribeというツールを開発した。
AIによるコード翻訳の課題にも対処し、科学計算における生産性向上のメリットを強調します。
論文 参考訳(メタデータ) (2024-10-31T16:48:41Z) - Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - Enhancing Scientific Reproducibility Through Automated BioCompute Object Creation Using Retrieval-Augmented Generation from Publications [0.0]
IEEE Biocompute Object(BCO)標準は、ニーズに対処するが、準拠するドキュメントを作成するオーバーヘッドのため、採用上の課題に直面している。
本稿では,Large Language Models(LLM)とRAG(Retrieval-Augmented Generation)を用いた科学論文からのBCOの自動生成手法を提案する。
この実装には最適化された検索プロセスが含まれており、再ランク付けされた2パスの検索と、各BCOドメインに対して慎重に設計されたプロンプトが採用されている。
論文 参考訳(メタデータ) (2024-09-23T14:51:22Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - How to Build an Adaptive AI Tutor for Any Course Using Knowledge Graph-Enhanced Retrieval-Augmented Generation (KG-RAG) [5.305156933641317]
知的学習システム(ITS)におけるLarge Language Models (LLMs)は、パーソナライズされた教育に変革をもたらす機会を提供する。
現在の実装では、2つの重要な課題に直面している。
本稿では,構造化知識表現と文脈認識検索を統合した新しいフレームワークである知識グラフ強化検索(RAG)を提案する。
論文 参考訳(メタデータ) (2023-11-29T15:02:46Z) - Natural Language to Code Generation in Interactive Data Science
Notebooks [35.621936471322385]
データサイエンスノートブックのパンダスデータ分析フレームワークを用いて1082のコード生成問題のベンチマークであるARCADEを構築した。
我々は,Python 計算ノートブック用の 62B コード言語モデル PaChiNCo を開発した。
論文 参考訳(メタデータ) (2022-12-19T05:06:00Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。