Fugu-MT 論文翻訳(概要): Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks

論文の概要: Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks

arxiv url: http://arxiv.org/abs/2505.00234v1
Date: Thu, 01 May 2025 00:48:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:55.195691
Title: Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
Title（参考訳）: 逐次決定タスクにおけるLLMエージェントの自己生成型インテクスト例
Authors: Vishnu Sarukkai, Zhiqiang Xie, Kayvon Fatahalian,
Abstract要約: 逐次意思決定タスクのための大規模言語モデル(LLM)エージェントを改善する多くの方法は、タスク固有の知識工学に依存している。我々は,LLMエージェントが,類似タスクにおける自身の成功経験からコンテキスト内で学習することで,そのパフォーマンスを自動改善する方法について検討する。
参考スコア（独自算出の注目度）: 11.125564622217892
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many methods for improving Large Language Model (LLM) agents for sequential decision-making tasks depend on task-specific knowledge engineering--such as prompt tuning, curated in-context examples, or customized observation and action spaces. Using these approaches, agent performance improves with the quality or amount of knowledge engineering invested. Instead, we investigate how LLM agents can automatically improve their performance by learning in-context from their own successful experiences on similar tasks. Rather than relying on task-specific knowledge engineering, we focus on constructing and refining a database of self-generated examples. We demonstrate that even a naive accumulation of successful trajectories across training tasks boosts test performance on three benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%), and InterCode-SQL (75% to 79%)--matching the performance the initial agent achieves if allowed two to three attempts per task. We then introduce two extensions: (1) database-level selection through population-based training to identify high-performing example collections, and (2) exemplar-level selection that retains individual trajectories based on their empirical utility as in-context examples. These extensions further enhance performance, achieving 91% on ALFWorld--matching more complex approaches that employ task-specific components and prompts. Our results demonstrate that automatic trajectory database construction offers a compelling alternative to labor-intensive knowledge engineering.
Abstract（参考訳）: 逐次意思決定タスクのためのLarge Language Model (LLM) エージェントを改善する多くの方法は、プロンプトチューニング、コンテキスト内例のキュレーション、観察と行動空間のカスタマイズなど、タスク固有の知識工学に依存している。これらの手法を用いることで、エージェントのパフォーマンスは、投資された知識工学の品質や量によって改善される。そこで本研究では,LLMエージェントが,類似タスクにおける自身の経験からコンテキスト内での学習により,そのパフォーマンスを向上する方法について検討する。タスク固有の知識工学に頼るのではなく、自己生成例のデータベースの構築と精査に重点を置いている。 ALFWorld (73%から89%)、Wordcraft (55%から64%)、InterCode-SQL (75%から79%) の3つのベンチマークでは、トレーニングタスク全体で成功したトラジェクトリが簡単な蓄積でもテストのパフォーマンスが向上することを示した。次に,(1)高パフォーマンスなサンプルコレクションを識別するための人口ベーストレーニングによるデータベースレベルの選択,(2)経験的有用性に基づいて個々の軌跡を保持する模範レベルの選択,の2つの拡張を紹介した。これらの拡張によりパフォーマンスがさらに向上し、ALFWorldでは91%が達成された。この結果から, 自動軌道データベース構築は, 労働集約型知識工学の代替となる可能性が示唆された。

関連論文リスト

Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。 4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文参考訳（メタデータ） (2025-07-20T01:50:16Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文参考訳（メタデータ） (2024-10-04T07:58:05Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks [22.66167973623777]
LLM(Large Language Models)は、ICL(In-context Learning)機能によってNLPを変換した。本稿では,予め定義されたタスクのラベル付き例から新しいタスクまで,LLMが一般化できるかどうかを検討する。 LLaMA-2 7Bは107%, LLaMA-2 13Bは18.6%, GPT3.5は3.2%であった。
論文参考訳（メタデータ） (2024-05-17T05:20:49Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-03-04T21:50:29Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文参考訳（メタデータ） (2022-12-30T12:32:43Z)
Task-Agnostic Continual Reinforcement Learning: Gaining Insights and Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文参考訳（メタデータ） (2022-05-28T17:59:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。