論文の概要: Build AI Assistants using Large Language Models and Agents to Enhance the Engineering Education of Biomechanics
- arxiv url: http://arxiv.org/abs/2511.15752v1
- Date: Wed, 19 Nov 2025 05:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.316895
- Title: Build AI Assistants using Large Language Models and Agents to Enhance the Engineering Education of Biomechanics
- Title(参考訳): 大規模言語モデルとエージェントを用いたAIアシスタントの構築とバイオメカニクスの工学教育
- Authors: Hanzhi Yan, Qin Lu, Xianqiao Wang, Xiaoming Zhai, Tianming Liu, He Li,
- Abstract要約: バイオメカニクス教育における大規模言語モデル (LLM) の性能向上のために, RAG (Retrieval-Augmented Generation) とMAS (Multi-Agent System) を適用した。
以上の結果から, RAGは概念的疑問に答える上で, LLMの性能と安定性を著しく向上させることが示された。
一方、複数のLSMを用いて構築されたMASは、多段階推論を行い、方程式を導出し、コードを実行し、計算を必要とするタスクに対して説明可能なソリューションを生成する能力を示す。
- 参考スコア(独自算出の注目度): 10.996558687223732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) have demonstrated remarkable versatility across a wide range of general tasks, their effectiveness often diminishes in domain-specific applications due to inherent knowledge gaps. Moreover, their performance typically declines when addressing complex problems that require multi-step reasoning and analysis. In response to these challenges, we propose leveraging both LLMs and AI agents to develop education assistants aimed at enhancing undergraduate learning in biomechanics courses that focus on analyzing the force and moment in the musculoskeletal system of the human body. To achieve our goal, we construct a dual-module framework to enhance LLM performance in biomechanics educational tasks: 1) we apply Retrieval-Augmented Generation (RAG) to improve the specificity and logical consistency of LLM's responses to the conceptual true/false questions; 2) we build a Multi-Agent System (MAS) to solve calculation-oriented problems involving multi-step reasoning and code execution. Specifically, we evaluate the performance of several LLMs, i.e., Qwen-1.0-32B, Qwen-2.5-32B, and Llama-70B, on a biomechanics dataset comprising 100 true/false conceptual questions and problems requiring equation derivation and calculation. Our results demonstrate that RAG significantly enhances the performance and stability of LLMs in answering conceptual questions, surpassing those of vanilla models. On the other hand, the MAS constructed using multiple LLMs demonstrates its ability to perform multi-step reasoning, derive equations, execute code, and generate explainable solutions for tasks that require calculation. These findings demonstrate the potential of applying RAG and MAS to enhance LLM performance for specialized courses in engineering curricula, providing a promising direction for developing intelligent tutoring in engineering education.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い一般的なタスクにおいて顕著な汎用性を示してきたが、それらの効果は、固有の知識ギャップのため、ドメイン固有のアプリケーションにおいて減少することが多い。
さらに、その性能は、多段階の推論と分析を必要とする複雑な問題に対処するときに一般的に低下する。
これらの課題に対応するため,生体の筋骨格系における力とモーメントを分析することに焦点を当てたバイオメカニクスコースにおいて,LLMとAIエージェントの双方を活用して,学部生の学習を促進するための教育アシスタントを開発することを提案する。
目的を達成するために,バイオメカニクス教育におけるLLM性能向上のためのデュアルモジュール・フレームワークを構築した。
1) LLMの概念的真/偽問題に対する応答の特異性と論理的整合性を改善するために, Retrieval-Augmented Generation (RAG)を適用した。
2)マルチエージェントシステム(MAS)を構築し,マルチステップ推論とコード実行を含む計算指向の問題を解決する。
具体的には,Qwen-1.0-32B,Qwen-2.5-32B,Llama-70Bを,100の真/偽概念問題と方程式の導出と計算を必要とする問題からなるバイオメカニクスデータセット上で評価した。
以上の結果から,RAGは概念的疑問に答える上で,バニラモデルよりもLLMの性能と安定性を著しく向上することが示された。
一方、複数のLSMを用いて構築されたMASは、多段階推論を行い、方程式を導出し、コードを実行し、計算を必要とするタスクに対して説明可能なソリューションを生成する能力を示す。
これらの結果から,工学カリキュラムの専門科目において,RAGとMASを併用してLLM性能を向上させる可能性が示唆された。
関連論文リスト
- Performance of LLMs on Stochastic Modeling Operations Research Problems: From Theory to Practice [18.040849771712093]
大規模言語モデル(LLM)は、さまざまな領域にまたがる専門家レベルの能力を示している。
しかし、オペレーティング・リサーチ(OR)における問題の解決能力はいまだ未解明のままである。
論文 参考訳(メタデータ) (2025-06-30T14:54:15Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - A Survey on Large Language Models with some Insights on their Capabilities and Limitations [0.3222802562733786]
大規模言語モデル(LLM)は、様々な言語関連タスクで顕著なパフォーマンスを示す。
LLMは、そのコア機能を超えて、創発的な能力を示す。
本稿では,これらの機能を実現する基盤となるコンポーネント,スケーリング機構,アーキテクチャ戦略について検討する。
論文 参考訳(メタデータ) (2025-01-03T21:04:49Z) - DARWIN 1.5: Large Language Models as Materials Science Adapted Learners [46.7259033847682]
DARWIN 1.5は,材料科学に適したオープンソースの大規模言語モデルである。
DARWINはタスク固有の記述子の必要性を排除し、材料特性の予測と発見に対する柔軟な統一的なアプローチを可能にする。
提案手法は,6Mの物質ドメイン論文と49,256の物質から得られた21の実験データセットを統合し,タスク間の知識伝達を可能にする。
論文 参考訳(メタデータ) (2024-12-16T16:51:27Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
BloomWiseは認知にインスパイアされた大規模言語モデル(LLM)のプロンプト技術である
解法をより説明しやすいものにしながら、数学的問題解決におけるLLMの性能を高めるように設計されている。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。