論文の概要: Latent State Estimation Helps UI Agents to Reason
- arxiv url: http://arxiv.org/abs/2405.11120v1
- Date: Fri, 17 May 2024 23:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 19:27:00.760380
- Title: Latent State Estimation Helps UI Agents to Reason
- Title(参考訳): 潜時状態推定はUIエージェントの推論を助ける
- Authors: William E Bishop, Alice Li, Christopher Rawles, Oriana Riva,
- Abstract要約: 現実の環境で活動するエージェントの一般的な問題は、環境の行動に対する応答が非決定論的であり、ノイズを通して観察されることである。
これにより、環境状態とタスクの完了に向けた進捗が引き起こされる。
遅延状態について明示的に推定および推論を行うLLMエージェントは、実行しないエージェントの最大1.6倍のタスクを完了可能であることを示す。
- 参考スコア(独自算出の注目度): 2.9798528859300855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common problem for agents operating in real-world environments is that the response of an environment to their actions may be non-deterministic and observed through noise. This renders environmental state and progress towards completing a task latent. Despite recent impressive demonstrations of LLM's reasoning abilities on various benchmarks, whether LLMs can build estimates of latent state and leverage them for reasoning has not been explicitly studied. We investigate this problem in the real-world domain of autonomous UI agents. We establish that appropriately prompting LLMs in a zero-shot manner can be formally understood as forming point estimates of latent state in a textual space. In the context of autonomous UI agents we then show that LLMs used in this manner are more than $76\%$ accurate at inferring various aspects of latent state, such as performed (vs. commanded) actions and task progression. Using both public and internal benchmarks and three reasoning methods (zero-shot, CoT-SC & ReAct), we show that LLM-powered agents that explicitly estimate and reason about latent state are able to successfully complete up to 1.6x more tasks than those that do not.
- Abstract(参考訳): 現実の環境で活動するエージェントの一般的な問題は、環境の行動に対する応答が非決定論的であり、ノイズを通して観察されることである。
これにより、環境状態とタスクの完了に向けた進捗が引き起こされる。
LLMの様々なベンチマークにおける推論能力に関する最近の印象的な実証にもかかわらず、LCMが潜在状態の推定を構築でき、推論のためにそれらを活用できるかどうかは明らかに研究されていない。
自律型UIエージェントの現実領域におけるこの問題について検討する。
我々は,ゼロショット方式でLLMを適切に推進することは,テキスト空間における潜在状態の点推定として正式に理解できることを確認した。
自律UIエージェントの文脈では、この方法で使用されるLCMは、実行された(vs. command)アクションやタスクの進行など、潜在状態のさまざまな側面を推測する精度が76\%以上であることを示す。
公的および内部ベンチマークと3つの推論手法(ゼロショット, CoT-SC & ReAct)を用いて, 潜伏状態について明示的に推定および推論を行うLLMエージェントが, 実行しないものよりも最大1.6倍のタスクを完了可能であることを示す。
関連論文リスト
- Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Towards a Benchmark for Causal Business Process Reasoning with LLMs [2.273531916003657]
大きな言語モデル(LLM)は、組織の効率向上やタスクの自動化にますます使われています。
近年の取り組みは、推論、計画、意思決定といった活動にLLMを採用するよう拡張されている。
本研究は, LLMの因果的・プロセス的視点を推論する能力を評価するため, ベンチマーク開発のための種子を植え付けるものである。
論文 参考訳(メタデータ) (2024-06-08T16:10:53Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Self-driven Grounding: Large Language Model Agents with Automatical
Language-aligned Skill Learning [38.038143548554686]
大規模言語モデル(LLM)は、人間の世界に関する豊富な意味知識を持つ強力な自動推論と計画能力を示す。
既存の研究では、LLMを微調整したり、事前に定義された動作APIを使用してLLMと環境をブリッジしようとする。
本稿では,自己駆動型スキル学習でLLMを自動的に,段階的にグラウンド化するための,自己駆動型グラウンディングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-04T04:31:24Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。