Fugu-MT 論文翻訳(概要): Procedural Knowledge Improves Agentic LLM Workflows

論文の概要: Procedural Knowledge Improves Agentic LLM Workflows

arxiv url: http://arxiv.org/abs/2511.07568v1
Date: Wed, 12 Nov 2025 01:04:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-12 20:17:03.386747
Title: Procedural Knowledge Improves Agentic LLM Workflows
Title（参考訳）: 手続き的知識がエージェントLLMワークフローを改善する
Authors: Vincent Hsiao, Mark Roberts, Leslie Smith,
Abstract要約: 大規模言語モデル(LLM)は、実質的なツールサポート、prom-ptエンジニアリング、微調整なしでエージェントタスクを実行する際にしばしば苦労する。階層型タスクネットワーク(HTN)の形式で手続き的知識を活用するエージェントLLMワークフローを形式化し、実装し、評価する。実験の結果,手書きHTNはエージェントタスクにおけるLLM性能を劇的に向上させることができることがわかった。
参考スコア（独自算出の注目度）: 0.5161531917413708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) often struggle when performing agentic tasks without substantial tool support, prom-pt engineering, or fine tuning. Despite research showing that domain-dependent, procedural knowledge can dramatically increase planning efficiency, little work evaluates its potential for improving LLM performance on agentic tasks that may require implicit planning. We formalize, implement, and evaluate an agentic LLM workflow that leverages procedural knowledge in the form of a hierarchical task network (HTN). Empirical results of our implementation show that hand-coded HTNs can dramatically improve LLM performance on agentic tasks, and using HTNs can boost a 20b or 70b parameter LLM to outperform a much larger 120b parameter LLM baseline. Furthermore, LLM-created HTNs improve overall performance, though less so. The results suggest that leveraging expertise--from humans, documents, or LLMs--to curate procedural knowledge will become another important tool for improving LLM workflows.
Abstract（参考訳）: 大規模言語モデル(LLM)は、実質的なツールサポート、prom-ptエンジニアリング、微調整なしでエージェントタスクを実行する際にしばしば苦労する。ドメインに依存した手続き的知識が計画の効率を劇的に向上させるという研究にもかかわらず、暗黙の計画を必要とするエージェントタスクにおけるLLMのパフォーマンス向上の可能性を評価する研究はほとんどない。階層型タスクネットワーク(HTN)の形式で手続き的知識を活用するエージェントLLMワークフローを形式化し,実装し,評価する。実験の結果,手書きHTNはエージェントタスクのLLM性能を劇的に向上させ,HTNは20bまたは70bパラメータのLLMを増強し,より大きな120bパラメータのLLMベースラインを上回り得ることがわかった。さらに、LLMで作成したHTNは全体的な性能を向上するが、そうはならない。この結果は、人、文書、LLMから専門知識を活用することで、手続き的知識をキュレートし、LLMワークフローを改善するための重要なツールとなることを示唆している。

関連論文リスト

How Many Parameters Does Your Task Really Need? Task Specific Pruning with LLM-Sieve [2.33361323991006]
大きな言語モデル(LLM)は、リソース制約された設定において、狭いタスクのためにますますデプロイされる。 LLM-Sieveは,タスク性能の維持に必要な最小パラメータサブセットにLCMを適用可能なフレームワークである。
論文参考訳（メタデータ） (2025-05-23T20:17:20Z)
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
Efficient Dynamic Ensembling for Multiple LLM Experts [44.41847678666002]
異なるLLM専門家の強みに対するアンサンブル推論は、多様な入力に対して一貫した満足なパフォーマンスを達成するために重要である。本研究では,動的入力を前提とした複数のLDMエキスパートの強みを統合するために,DERと呼ばれる効率的な動的アンサンブル推論パラダイムを提案する。実験により,本手法では,最先端のベースラインに比べて計算資源が少なく,性能が向上することが示された。
論文参考訳（メタデータ） (2024-12-10T12:05:56Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Revisiting OPRO: The Limitations of Small-Scale LLMs as Optimizers [15.809293135844756]
比較的小規模な言語モデル(LLM)を用いた自動プロンプトのためのOPROを再検討する。 OPROは小規模なLLMにおいて限られた有効性を示し、推論能力は最適化能力を制限している。我々は,モデル能力と計算コストの両方を考慮するために,将来的な自動プロンプトエンジニアリングを提案する。
論文参考訳（メタデータ） (2024-05-16T17:33:50Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。