論文の概要: CelloAI: Leveraging Large Language Models for HPC Software Development in High Energy Physics
- arxiv url: http://arxiv.org/abs/2508.16713v1
- Date: Fri, 22 Aug 2025 15:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.142831
- Title: CelloAI: Leveraging Large Language Models for HPC Software Development in High Energy Physics
- Title(参考訳): CelloAI:高エネルギー物理におけるHPCソフトウェア開発のための大規模言語モデルを活用する
- Authors: Mohammad Atif, Kriti Chopra, Ozgur Kilic, Tianle Wang, Zhihua Dong, Charles Leggett, Meifeng Lin, Paolo Calafiura, Salman Habib,
- Abstract要約: 次世代の高エネルギー物理実験は前例のないデータ量を生成する。
次世代の高エネルギー物理(HEP)実験は前例のないデータ量を生成する。
- 参考スコア(独自算出の注目度): 2.4272174123587833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next-generation High Energy Physics (HEP) experiments will generate unprecedented data volumes, necessitating High Performance Computing (HPC) integration alongside traditional high-throughput computing. However, HPC adoption in HEP is hindered by the challenge of porting legacy software to heterogeneous architectures and the sparse documentation of these complex scientific codebases. We present CelloAI, a locally hosted coding assistant that leverages Large Language Models (LLMs) with retrieval-augmented generation (RAG) to support HEP code documentation and generation. This local deployment ensures data privacy, eliminates recurring costs and provides access to large context windows without external dependencies. CelloAI addresses two primary use cases, code documentation and code generation, through specialized components. For code documentation, the assistant provides: (a) Doxygen style comment generation for all functions and classes by retrieving relevant information from RAG sources (papers, posters, presentations), (b) file-level summary generation, and (c) an interactive chatbot for code comprehension queries. For code generation, CelloAI employs syntax-aware chunking strategies that preserve syntactic boundaries during embedding, improving retrieval accuracy in large codebases. The system integrates callgraph knowledge to maintain dependency awareness during code modifications and provides AI-generated suggestions for performance optimization and accurate refactoring. We evaluate CelloAI using real-world HEP applications from ATLAS, CMS, and DUNE experiments, comparing different embedding models for code retrieval effectiveness. Our results demonstrate the AI assistant's capability to enhance code understanding and support reliable code generation while maintaining the transparency and safety requirements essential for scientific computing environments.
- Abstract(参考訳): 次世代の高エネルギー物理(HEP)実験は前例のないデータボリュームを生成し、従来のハイスループットコンピューティングとHPC(High Performance Computing)の統合を必要とする。
しかし、HEPにおけるHPCの採用は、レガシーソフトウェアを異種アーキテクチャに移植することの難しさと、これらの複雑な科学的コードベースの疎結合なドキュメントによって妨げられている。
本稿では,Large Language Models (LLM) と検索拡張生成 (RAG) を併用して,HEPコードドキュメンテーションと生成をサポートする,ローカルにホストされたコーディングアシスタントであるCelloAIを紹介する。
このローカルデプロイメントはデータのプライバシを保証し、繰り返し発生するコストを排除し、外部依存関係のない大きなコンテキストウィンドウへのアクセスを提供する。
CelloAIは、特殊なコンポーネントを通じて、コードドキュメントとコード生成という、2つの主要なユースケースに対処する。
コードドキュメンテーションについて、アシスタントは次のように提供します。
(a)RAGソース(紙、ポスター、プレゼンテーション)から関連情報を検索することで、すべての機能及びクラスに対する酸素スタイルのコメント生成
(b)ファイルレベルの要約生成、および
(c)コード理解クエリのための対話型チャットボット。
コード生成では、CelloAIは構文を意識したチャンキング戦略を採用し、埋め込み中に構文境界を保ち、大規模なコードベースでの検索精度を向上させる。
このシステムはコールグラフの知識を統合して、コード修正時の依存性の認識を維持し、パフォーマンスの最適化と正確なリファクタリングのためのAI生成の提案を提供する。
我々は,ATLAS, CMS, DUNE実験による実世界のHEPアプリケーションを用いてCelloAIを評価し, コード検索の有効性について異なる埋め込みモデルを比較した。
本稿の結果は,科学計算環境に不可欠な透明性と安全性の要件を維持しつつ,コード理解と信頼性の高いコード生成を支援するAIアシスタントの能力を実証するものである。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - Leveraging Large Language Models for Code Translation and Software Development in Scientific Computing [0.9668407688201359]
生成人工知能(GenAI)は、科学計算における生産性を変革する。
我々は、コード変換の効率的なプロセスを確立するために、プロンプトエンジニアリングとユーザ管理を組み合わせたCodeScribeというツールを開発した。
AIによるコード翻訳の課題にも対処し、科学計算における生産性向上のメリットを強調します。
論文 参考訳(メタデータ) (2024-10-31T16:48:41Z) - Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - How to Build an Adaptive AI Tutor for Any Course Using Knowledge Graph-Enhanced Retrieval-Augmented Generation (KG-RAG) [5.305156933641317]
知的学習システム(ITS)におけるLarge Language Models (LLMs)は、パーソナライズされた教育に変革をもたらす機会を提供する。
現在の実装では、2つの重要な課題に直面している。
本稿では,構造化知識表現と文脈認識検索を統合した新しいフレームワークである知識グラフ強化検索(RAG)を提案する。
論文 参考訳(メタデータ) (2023-11-29T15:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。