論文の概要: SHERPA: A Model-Driven Framework for Large Language Model Execution
- arxiv url: http://arxiv.org/abs/2509.00272v1
- Date: Fri, 29 Aug 2025 23:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.156521
- Title: SHERPA: A Model-Driven Framework for Large Language Model Execution
- Title(参考訳): SHERPA: 大規模言語モデル実行のためのモデル駆動フレームワーク
- Authors: Boqi Chen, Kua Chen, José Antonio Hernández López, Gunter Mussbacher, Dániel Varró, Amir Feizpour,
- Abstract要約: SHERPAは、複雑なタスクにおける大規模言語モデル(LLM)のパフォーマンスを改善するためのモデル駆動フレームワークである。
ドメイン固有のベストプラクティスを階層的なステートマシンに明示的に組み込むことで、SHERPAはよりきめ細かい動作制御を可能にする。
- 参考スコア(独自算出の注目度): 5.595920727790909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large language models (LLMs) have achieved widespread application across various fields. Despite their impressive capabilities, LLMs suffer from a lack of structured reasoning ability, particularly for complex tasks requiring domain-specific best practices, which are often unavailable in the training data. Although multi-step prompting methods incorporating human best practices, such as chain-of-thought and tree-of-thought, have gained popularity, they lack a general mechanism to control LLM behavior. In this paper, we propose SHERPA, a model-driven framework to improve the LLM performance on complex tasks by explicitly incorporating domain-specific best practices into hierarchical state machines. By structuring the LLM execution processes using state machines, SHERPA enables more fine-grained control over their behavior via rules or decisions driven by machine learning-based approaches, including LLMs. We show that SHERPA is applicable to a wide variety of tasks-specifically, code generation, class name generation, and question answering-replicating previously proposed approaches while further improving the performance. We demonstrate the effectiveness of SHERPA for the aforementioned tasks using various LLMs. Our systematic evaluation compares different state machine configurations against baseline approaches without state machines. Results show that integrating well-designed state machines significantly improves the quality of LLM outputs, and is particularly beneficial for complex tasks with well-established human best practices but lacking data used for training LLMs.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は様々な分野に広く応用されている。
優れた能力にもかかわらず、LLMは構造化推論能力の欠如、特に訓練データでは利用できない、ドメイン固有のベストプラクティスを必要とする複雑なタスクに悩まされる。
チェーン・オブ・シンクやツリー・オブ・シンクのような人間のベストプラクティスを取り入れた多段階的なプロンプト手法が人気を集めているが、LLMの行動を制御するための一般的なメカニズムが欠如している。
本稿では,ドメイン固有のベストプラクティスを階層型ステートマシンに明示的に組み込むことで,複雑なタスクにおけるLLM性能を改善するためのモデル駆動フレームワークであるSHERPAを提案する。
状態マシンを使用してLLM実行プロセスを構築することで、SHERPAはLLMを含む機械学習ベースのアプローチによって駆動されるルールや決定を通じて、よりきめ細かい動作制御を可能にする。
SHERPAは,コード生成,クラス名生成,質問応答の再現など,様々なタスクに適用可能であるとともに,性能の向上も図っている。
上記課題に対するSHERPAの有効性を示す。
システム評価では、ステートマシンを使わずに、異なるステートマシン構成をベースラインアプローチと比較する。
その結果, 十分に設計された状態マシンの統合は, LLM出力の品質を著しく向上させるとともに, LLMのトレーニングに使用するデータに欠ける, 高度に確立された人間のベストプラクティスを持つ複雑なタスクに特に有益であることが示唆された。
関連論文リスト
- EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [8.3321872381107]
我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。
既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。
EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-26T12:34:16Z) - MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems [43.41902313944615]
我々は、MASを生成言語タスクとして再定義することで、MASを構築するプロセスを簡単にする。
一貫性のあるクエリ-MASペアからなる高品質なデータセットを作成する。
生成されたMASは、ユーザクエリをシームレスに処理し、高品質なレスポンスを提供する。
論文 参考訳(メタデータ) (2025-03-05T17:27:59Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Experts [40.98057887166546]
機械学習のワークフローを自動化するための有望なソリューションとして、大規模言語モデル(LLM)エージェントが登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを紹介します。
実際のトレーニングフィードバックに基づいて個々のコンポーネントを体系的に更新することにより、イテレーティブリファインメントはモデル全体のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。