論文の概要: Can Large Language Models Assist the Comprehension of ROS2 Software Architectures?
- arxiv url: http://arxiv.org/abs/2604.21699v1
- Date: Thu, 23 Apr 2026 14:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.582813
- Title: Can Large Language Models Assist the Comprehension of ROS2 Software Architectures?
- Title(参考訳): 大規模言語モデルはROS2ソフトウェアアーキテクチャの理解を支援することができるか?
- Authors: Laura Duits, Bouazza El Moutaouakil, Ivano Malavolta,
- Abstract要約: ロボティクスソフトウェアで最も使われている開発フレームワークはROS2である。
我々は,LLMがROS2システムのアーキテクチャに関する事実情報の理解にどのように役立つかを評価することを目的とする。
- 参考スコア(独自算出の注目度): 2.874739628406466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context. The most used development framework for robotics software is ROS2. ROS2 architectures are highly complex, with thousands of components communicating in a decentralized fashion. Goal. We aim to evaluate how LLMs can assist in the comprehension of factual information about the architecture of ROS2 systems. Method. We conduct a controlled experiment where we administer 1,230 prompts to 9 LLMs containing architecturally-relevant questions about 3 ROS2 systems with incremental size. We provide a generic algorithm that systematically generates architecturally-relevant questions for a ROS2 system. Then, we (i) assess the accuracy of the answers of the LLMs against a ground truth established via running and monitoring the 3 ROS2 systems and (ii) qualitatively analyse the explanations provided by the LLMs. Results. Almost all questions are answered correctly across all LLMs (mean=98.22%). gemini-2.5-pro performs best (100% accuracy across all prompts and systems), followed by o3 (99.77%), and gemini-2.5-flash (99.72%); the least performing LLM is gpt-4.1 (95%). Only 300/1,230 prompts are incorrectly answered, of which 249 are about the most complex system. The coherence scores in LLM's explanations range from 0.394 for "service references" to 0.762 for "communication path". The mean perplexity varies significantly across models, with chatgpt-4o achieving the lowest score (19.6) and o4-mini the highest (103.6). Conclusions. There is great potential in the usage of LLMs to aid ROS2 developers in comprehending non-trivial aspects of the software architecture of their systems. Nevertheless, developers should be aware of the intrinsic limitations and different performances of the LLMs and take those into account when using them.
- Abstract(参考訳): コンテキスト。
ロボティクスソフトウェアで最も使われている開発フレームワークはROS2である。
ROS2アーキテクチャは非常に複雑で、数千のコンポーネントが分散的に通信している。
ゴール。
我々は,LLMがROS2システムのアーキテクチャに関する事実情報の理解にどのように役立つかを評価することを目的とする。
方法。
我々は1,230のプロンプトをアーキテクチャ上の問題を含む9のLLMに対して,増分サイズで3つのROS2システムに関する制御実験を行った。
ROS2システムに対するアーキテクチャ関連質問を体系的に生成する汎用アルゴリズムを提案する。
そして、私たちは
1 LLMの回答の正確さを、3つのROS2システムの実行及び監視によって確立された真理に対して評価すること。
2 LLMによる説明を質的に分析すること。
結果。
ほぼ全ての質問は全てのLSMで正しく答えられる(平均=98.22%)。
gemini-2.5-proは全てのプロンプトとシステムで100%の精度で、o3(99.77%)とgemini-2.5-flash(99.72%)が続く。
300/1,230のプロンプトだけが誤って答えられ、そのうち249は最も複雑なシステムである。
LLMの説明におけるコヒーレンススコアは、"service references"の0.394から"communication path"の0.762まで様々である。
平均パープレキシティはモデルによって大きく異なり、チャットgpt-4oは最低スコア(19.6)、o4-miniは最高スコア(103.6)に達する。
結論。
LLMを使うことで、ROS2開発者がシステムのソフトウェアアーキテクチャの非自明な側面を理解するのを助けることができる。
それでも開発者は、LLMの固有の制限と異なるパフォーマンスを認識し、それらを使用する際に考慮する必要がある。
関連論文リスト
- Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering [4.120344028676837]
大規模言語モデル(LLM)は、質問応答(QA)を含む、ソフトウェアエンジニアリングタスク全体で印象的な機能を示している。
StackRepoQAは、134のオープンソースJavaプロジェクト間で、1,318の実際の開発者質問と受け入れられた回答から構築された、最初のマルチプロジェクト、リポジトリレベルの質問応答データセットです。
論文 参考訳(メタデータ) (2026-03-27T16:30:54Z) - Using LLMs in Generating Design Rationale for Software Architecture Decisions [6.701267400827761]
ソフトウェアアーキテクチャ決定のための設計規則(DR:Design Rationale)は、アーキテクチャ選択の基礎となる理由である。
近年のLarge Language Models (LLM) の進歩により、テキスト理解、推論、生成の能力により、アーキテクチャ決定のためのDRの生成とリカバリが可能になる。
論文 参考訳(メタデータ) (2025-04-29T14:00:18Z) - EmbedAgent: Benchmarking Large Language Models in Embedded System Development [41.849233931919265]
大規模言語モデル(LLM)は様々なタスクにおいて有望であるが、組み込みシステム開発におけるその能力を評価するベンチマークは少ない。
組込みシステム開発における現実の役割をシミュレートするパラダイムである EmbedAgent を紹介する。
組込みシステムプログラミング、回路設計、クロスプラットフォームマイグレーションのための最初の包括的なベンチマークであるEmbedbenchを提案する。
論文 参考訳(メタデータ) (2025-04-19T12:51:24Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。