Fugu-MT 論文翻訳(概要): Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks

論文の概要: Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks

arxiv url: http://arxiv.org/abs/2505.00234v3
Date: Fri, 16 May 2025 21:52:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.635213
Title: Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks
Title（参考訳）: 逐次決定タスクにおけるLLMエージェントの自己生成型インテクスト例
Authors: Vishnu Sarukkai, Zhiqiang Xie, Kayvon Fatahalian,
Abstract要約: 大規模言語モデルエージェントは、人間の介入なしに自身の成功経験から学習することで改善する。提案手法は,将来的なタスクのコンテキスト内例として機能する,自己生成トラジェクトリのデータベースを構築し,改良する。我々の軌道ブートストラッピング技術は、エージェントが経験を通じて自律的に改善できることを示し、労働集約的な知識工学に代わるスケーラブルな代替手段を提供する。
参考スコア（独自算出の注目度）: 11.125564622217892
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Improving Large Language Model (LLM) agents for sequential decision-making tasks typically requires extensive task-specific knowledge engineering--custom prompts, curated examples, and specialized observation/action spaces. We investigate a different approach where agents automatically improve by learning from their own successful experiences without human intervention. Our method constructs and refines a database of self-generated trajectories that serve as in-context examples for future tasks. Even naive accumulation of successful trajectories yields substantial performance gains across three diverse benchmarks: ALFWorld (73% to 89%), Wordcraft (55% to 64%), and InterCode-SQL (75% to 79%). These improvements exceed those achieved by upgrading from gpt-4o-mini to gpt-4o and match the performance of allowing multiple attempts per task. We further enhance this approach with two innovations: database-level curation using population-based training to propagate high-performing example collections, and exemplar-level curation that selectively retains trajectories based on their empirical utility as in-context examples. With these enhancements, our method achieves 93% success on ALFWorld--surpassing approaches that use more powerful LLMs and hand-crafted components. Our trajectory bootstrapping technique demonstrates that agents can autonomously improve through experience, offering a scalable alternative to labor-intensive knowledge engineering.
Abstract（参考訳）: シーケンシャルな意思決定タスクのための大規模言語モデル(LLM)エージェントの改善には、通常、広範囲なタスク固有の知識工学的プロンプト、キュレートされた例、専門的な観察・行動空間が必要となる。エージェントが人間の介入なしに自身の経験から学習することで、エージェントが自動的に改善するアプローチについて検討する。提案手法は,将来的なタスクのコンテキスト内例として機能する,自己生成トラジェクトリのデータベースを構築し,改良する。 ALFWorld (73%から89%)、Wordcraft (55%から64%)、InterCode-SQL (75%から79%)である。これらの改善は、gpt-4o-miniからgpt-4oにアップグレードし、タスク毎に複数の試行を可能にするパフォーマンスに適合することで達成されたものを上回る。さらに,本手法は,高パフォーマンスなサンプルコレクションを普及させるために,人口ベーストレーニングを用いたデータベースレベルのキュレーションと,インコンテキストの例として経験的有用性に基づいてトラジェクトリを選択的に保持する模範レベルのキュレーションの2つの革新によって,さらに強化されている。これらの拡張により、より強力なLCMと手作りのコンポーネントを使用するALFWorldの手法で、93%の成功を達成できる。我々の軌道ブートストラッピング技術は、エージェントが経験を通じて自律的に改善できることを示し、労働集約的な知識工学に代わるスケーラブルな代替手段を提供する。

関連論文リスト

Fine-tuning with RAG for Improving LLM Learning of New Skills [8.825427873545063]
大規模言語モデル(LLM)エージェントは予測可能な方法で頻繁に失敗する。本稿では,推論時間検索を蒸留による学習能力に変換する単純なパイプラインを提案する。
論文参考訳（メタデータ） (2025-10-01T19:03:48Z)
Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。 4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文参考訳（メタデータ） (2025-07-20T01:50:16Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文参考訳（メタデータ） (2024-10-04T07:58:05Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks [22.66167973623777]
LLM(Large Language Models)は、ICL(In-context Learning)機能によってNLPを変換した。本稿では,予め定義されたタスクのラベル付き例から新しいタスクまで,LLMが一般化できるかどうかを検討する。 LLaMA-2 7Bは107%, LLaMA-2 13Bは18.6%, GPT3.5は3.2%であった。
論文参考訳（メタデータ） (2024-05-17T05:20:49Z)
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文参考訳（メタデータ） (2024-03-29T03:48:12Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)
Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。 3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-03-04T21:50:29Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文参考訳（メタデータ） (2023-05-24T10:08:04Z)
Reinforcement Learning with Success Induced Task Prioritization [68.8204255655161]
本稿では,自動カリキュラム学習のためのフレームワークであるSuccess induced Task Prioritization (SITP)を紹介する。アルゴリズムはエージェントに最速の学習を提供するタスクの順序を選択する。我々は,SITPが他のカリキュラム設計手法と一致するか,あるいは上回っていることを実証する。
論文参考訳（メタデータ） (2022-12-30T12:32:43Z)
Task-Agnostic Continual Reinforcement Learning: Gaining Insights and Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文参考訳（メタデータ） (2022-05-28T17:59:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。