Fugu-MT 論文翻訳(概要): StateAct: State Tracking and Reasoning for Acting and Planning with Large Language Models

論文の概要: StateAct: State Tracking and Reasoning for Acting and Planning with Large Language Models

arxiv url: http://arxiv.org/abs/2410.02810v2
Date: Sat, 15 Feb 2025 16:33:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.399383
Title: StateAct: State Tracking and Reasoning for Acting and Planning with Large Language Models
Title（参考訳）: StateAct: 大規模言語モデルによる行動計画のための状態追跡と推論
Authors: Nikolai Rozanov, Marek Rei,
Abstract要約: 対話型環境における大規模言語モデル(LLM)を用いたリアルタスクの計画と実行が,AI手法の新たなフロンティアとなっている。状態追跡によるチェーン・オブ・シークレットの強化を目的とした,数ショットのインコンテキスト学習のみに基づく簡易な手法を提案する。本稿では,本手法が,文脈内学習のためのALFworldの最先端技術を確立していることを示す。
参考スコア（独自算出の注目度）: 10.359008237358603
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Planning and acting to solve `real' tasks using large language models (LLMs) in interactive environments has become a new frontier for AI methods. While recent advances allowed LLMs to interact with online tools, solve robotics tasks and many more, long range reasoning tasks remain a problem for LLMs. Existing methods to address this issue are very resource intensive and require additional data or human crafted rules, instead, we propose a simple method based on few-shot in-context learning alone to enhance `chain-of-thought' with state-tracking for planning and acting with LLMs. We show that our method establishes the new state-of-the-art on Alfworld for in-context learning methods (+14\% over the previous best few-shot in-context learning method) and performs on par with methods that use additional training data and additional tools such as code-execution. We also demonstrate that our enhanced `chain-of-states' allows the agent to both solve longer horizon problems and to be more efficient in number of steps required to solve a task. We show that our method works across a variety of LLMs for both API-based and open source ones. Finally, we also conduct ablation studies and show that `chain-of-thoughts' helps state-tracking accuracy, while a json-structure harms overall performance. We open-source our code and annotations at https://github.com/ai-nikolai/StateAct.
Abstract（参考訳）: 対話型環境における大規模言語モデル(LLM)を用いた「リアル」タスクの計画と実行が、AIメソッドの新たなフロンティアとなっている。近年の進歩により、LLMはオンラインツールと対話し、ロボティクスタスクを解くことができ、さらに多くの長距離推論タスクはLLMにとって問題となっている。この問題に対処する既存の手法は非常にリソース集約的で、追加のデータや人為的なルールを必要とするが、代わりに、LLMの計画と動作のための状態追跡による'チェーン・オブ・シント'を強化するために、少数ショットのインコンテキスト学習のみに基づく簡単な方法を提案する。提案手法は,テキスト内学習手法のAlfworldにおける新たな最先端技術を確立し,さらに学習データとコード実行などの追加ツールを併用する手法と同等に動作することを示す。強化された 'chain-of-states' により、エージェントがより長い地平線問題を解決することができ、タスクの解決に必要なステップの数でより効率的になることを示す。提案手法は,APIベースとオープンソースの両方で,様々な LLM にまたがって動作することを示す。最後に、アブレーション研究を行い、'chain-of-thinkts'が状態追跡の精度を向上し、json構造が全体的なパフォーマンスを損なうことを示す。コードとアノテーションはhttps://github.com/ai-nikolai/StateAct.orgで公開しています。

関連論文リスト

AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。 AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文参考訳（メタデータ） (2025-11-11T14:57:54Z)
Self-Abstraction from Grounded Experience for Plan-Guided Policy Refinement [61.35824395228412]
大規模言語モデル(LLM)ベースのエージェントは、ソフトウェア工学のタスクに取り組むためにますます使われています。エージェントが自身のタスク実行から学習することを可能にするフレームワークであるSAGE(Self-Abstraction from Grounded Experience)を提案する。
論文参考訳（メタデータ） (2025-11-08T08:49:38Z)
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文参考訳（メタデータ） (2025-09-08T02:07:09Z)
Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling [18.390443362388623]
Trae Agentは、リポジトリレベルのイシュー解決のための、最初のエージェントベースのアンサンブル推論アプローチである。広範に評価されたSWEベンチマークにおいて,3つの主要な大規模言語モデル(LLM)を用いて実験を行った。 Trae Agentは、Pass@1の観点で、すべてのベースラインに対して平均10.22%の改善で、一貫して優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-31T09:37:22Z)
The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文参考訳（メタデータ） (2025-05-23T11:40:58Z)
Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。 LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文参考訳（メタデータ） (2025-05-23T08:23:36Z)
Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文参考訳（メタデータ） (2025-05-23T08:20:15Z)
A Self-Improving Coding Agent [23.44829720834145]
LLM(Large Language Models)は、LLMエージェントを世界に向けて展開することへの関心を喚起している。本稿では,基本的なコーディングツールを備えたエージェントシステムが,自らを自律的に編集し,ベンチマークタスクの性能を向上させることを実証する。
論文参考訳（メタデータ） (2025-04-21T16:58:18Z)
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文参考訳（メタデータ） (2025-04-11T19:49:22Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文参考訳（メタデータ） (2024-10-16T11:59:27Z)
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。 LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文参考訳（メタデータ） (2024-05-04T20:34:06Z)
AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文参考訳（メタデータ） (2024-04-09T16:01:24Z)
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文参考訳（メタデータ） (2024-03-19T16:26:10Z)
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文参考訳（メタデータ） (2024-02-27T12:26:07Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
More Agents Is All You Need [16.372072265248192]
単にサンプリング・アンド・投票方式によって,大規模言語モデル(LLM)の性能は,エージェントの数がインスタンス化されるに従ってスケールすることがわかった。
論文参考訳（メタデータ） (2024-02-03T05:55:24Z)
Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。本稿では,LLMの連続学習に関する最近の研究について述べる。
論文参考訳（メタデータ） (2024-02-02T12:34:09Z)
Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-30T21:53:30Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
LLM Augmented Hierarchical Agents [4.574041097539858]
強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり、事前知識(あるいは表層ラサ学習)を伴わない学習の一般的な実践によって複雑化される。本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。
論文参考訳（メタデータ） (2023-11-09T18:54:28Z)
Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文参考訳（メタデータ） (2023-07-31T13:26:03Z)
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。 LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文参考訳（メタデータ） (2023-06-06T11:49:09Z)
Guiding Pretraining in Reinforcement Learning with Large Language Models [133.32146904055233]
テキストコーパスからの背景知識を用いて探索を図形化する手法について述べる。このメソッドはELLMと呼ばれ、言語モデルによって提案される目標を達成するエージェントに報酬を与える。大規模な言語モデルの事前訓練を活用することで、ELLMはエージェントをループに人間を必要とせず、人間に有意義で、もっとも有用な行動へと導く。
論文参考訳（メタデータ） (2023-02-13T21:16:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。