論文の概要: S3LLM: Large-Scale Scientific Software Understanding with LLMs using Source, Metadata, and Document
- arxiv url: http://arxiv.org/abs/2403.10588v1
- Date: Fri, 15 Mar 2024 17:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:44:00.376302
- Title: S3LLM: Large-Scale Scientific Software Understanding with LLMs using Source, Metadata, and Document
- Title(参考訳): S3LLM: ソース、メタデータ、ドキュメントを使用したLLMによる大規模科学ソフトウェア理解
- Authors: Kareem Shaik, Dali Wang, Weijian Zheng, Qinglei Cao, Heng Fan, Peter Schwartz, Yunhe Feng,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な科学的コードを理解するための新しい経路を提供する。
S3LLMは、ソースコード、コードメタデータ、要約された情報を対話的で対話的な方法で検証できるように設計されたフレームワークである。
S3LLMは、大規模科学計算ソフトウェアを迅速に理解するために、ローカルにデプロイされたオープンソースLLMを使用する可能性を実証している。
- 参考スコア(独自算出の注目度): 8.518000504951404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The understanding of large-scale scientific software poses significant challenges due to its diverse codebase, extensive code length, and target computing architectures. The emergence of generative AI, specifically large language models (LLMs), provides novel pathways for understanding such complex scientific codes. This paper presents S3LLM, an LLM-based framework designed to enable the examination of source code, code metadata, and summarized information in conjunction with textual technical reports in an interactive, conversational manner through a user-friendly interface. S3LLM leverages open-source LLaMA-2 models to enhance code analysis through the automatic transformation of natural language queries into domain-specific language (DSL) queries. Specifically, it translates these queries into Feature Query Language (FQL), enabling efficient scanning and parsing of entire code repositories. In addition, S3LLM is equipped to handle diverse metadata types, including DOT, SQL, and customized formats. Furthermore, S3LLM incorporates retrieval augmented generation (RAG) and LangChain technologies to directly query extensive documents. S3LLM demonstrates the potential of using locally deployed open-source LLMs for the rapid understanding of large-scale scientific computing software, eliminating the need for extensive coding expertise, and thereby making the process more efficient and effective. S3LLM is available at https://github.com/ResponsibleAILab/s3llm.
- Abstract(参考訳): 大規模な科学ソフトウェアを理解することは、コードベースの多様さ、コードの長さの広さ、対象とするコンピューティングアーキテクチャなど、大きな課題を生んでいる。
生成AIの出現、特に大きな言語モデル(LLM)は、そのような複雑な科学的コードを理解するための新しい経路を提供する。
本稿では,S3LLMについて述べる。S3LLMは,ソースコード,コードメタデータ,要約情報を,ユーザフレンドリーなインターフェースを通じて対話的かつ対話的な方法で,テキスト技術レポートと併用可能にするための,LCMベースのフレームワークである。
S3LLMはオープンソースのLLaMA-2モデルを利用して、自然言語クエリをドメイン固有言語(DSL)クエリに自動変換することで、コード解析を強化する。
具体的には、これらのクエリをFeature Query Language(FQL)に変換し、コードリポジトリ全体の効率的なスキャンと解析を可能にする。
さらに、S3LLMは、DOT、SQL、カスタマイズフォーマットなど、さまざまなメタデータタイプを扱うように設計されている。
さらに、S3LLMは検索拡張生成(RAG)とLangChain技術を組み込んで、広範なドキュメントを直接クエリする。
S3LLMは、大規模な科学計算ソフトウェアを迅速に理解するために、ローカルにデプロイされたオープンソースLLMを使用することの可能性を示し、コーディングの専門知識の広範な必要をなくし、プロセスをより効率的かつ効果的にする。
S3LLMはhttps://github.com/ResponsibleAILab/s3llm.comで入手できる。
関連論文リスト
- Codellm-Devkit: A Framework for Contextualizing Code LLMs with Program Analysis Insights [9.414198519543564]
codellm-devkit (以下, CLDK') は,プログラム解析のプロセスを大幅に単純化したオープンソースライブラリである。
CLDKは開発者に対して直感的でユーザフレンドリなインターフェースを提供しています。
論文 参考訳(メタデータ) (2024-10-16T20:05:59Z) - Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - Using Large Language Models to Understand Telecom Standards [35.343893798039765]
大きな言語モデル(LLM)は、関連する情報へのより高速なアクセスを提供する。
質問応答(QA)アシスタントとして使用される最先端のLCMの性能を評価する。
その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用できることがわかった。
論文 参考訳(メタデータ) (2024-04-02T09:54:51Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。