論文の概要: Rational Decision-Making Agent with Internalized Utility Judgment
- arxiv url: http://arxiv.org/abs/2308.12519v2
- Date: Wed, 17 Jan 2024 13:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 21:05:36.200422
- Title: Rational Decision-Making Agent with Internalized Utility Judgment
- Title(参考訳): 内部的効用判断を伴う合理的意思決定エージェント
- Authors: Yining Ye, Xin Cong, Shizuo Tian, Yujia Qin, Chong Liu, Yankai Lin,
Zhiyuan Liu, Maosong Sun
- Abstract要約: 大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。
本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。
ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
- 参考スコア(独自算出の注目度): 91.80700126895927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable advancements and
have attracted significant efforts to develop LLMs into agents capable of
executing intricate multi-step decision-making tasks beyond traditional NLP
applications. Existing approaches to LLM-based decision-making predominantly
build upon the manually-designed external performance metrics to guide the
decision-making process. However, reliance on the external performance metrics
as prior is problematic in real-world scenarios, where such prior may be
unavailable, flawed, or even erroneous. For genuine autonomous decision making,
it is imperative for the agent to develop its rationality from its posterior
experiences to judge decisions independently. Central to the development of
rationality is the construction of an internalized utility judgment, capable of
assigning numerical utilities to each decision. This paper proposes RadAgent
(Rational Decision-Making Agent), which fosters the development of its
rationality through an iterative framework involving Experience Exploration and
Utility Learning. Within this framework, Elo-based Utility Construction is
devised to assign Elo scores to individual decision steps to judge their
utilities via pairwise comparisons. Consequently, these Elo scores guide the
decision-making process to derive optimal outcomes. Experimental results on the
ToolBench dataset demonstrate RadAgent's superiority over baselines, achieving
over 10% improvement in Pass Rate on diverse tasks. It offers higher-quality
solutions and reduces costs (ChatGPT API calls), highlighting its effectiveness
and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい進歩を示しており、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行することができるエージェントにLLMを開発するための重要な努力を惹きつけている。
LLMベースの意思決定への既存のアプローチは、主に手動で設計した外部パフォーマンスメトリクスに基づいて意思決定プロセスを導く。
しかし、実際のシナリオでは、事前として外部のパフォーマンスメトリクスに依存することは問題であり、そのような前処理が使用できない、欠陥がある、あるいは誤った場合さえある。
真の自律的意思決定では、エージェントが決定を独立に判断するために、後からの経験から合理性を開発することが不可欠である。
合理性の発展の中心は、各決定に数値的なユーティリティを割り当てることができる内部的なユーティリティ判断の構築である。
本稿では,経験探索と実用学習を含む反復的枠組みによる合理性の発達を促進するラダジェント(合理的意思決定エージェント)を提案する。
このフレームワークの中で、eloベースのユーティリティ構築は、eloスコアを個々の決定ステップに割り当て、ペアワイズ比較によってユーティリティを判断するために考案される。
その結果、これらのエロスコアは意思決定プロセスに最適な結果をもたらす。
toolbenchデータセットの実験結果は、radagentがベースラインよりも優れていることを示し、さまざまなタスクでパスレートを10%以上向上させた。
高品質なソリューションを提供し、コストを削減する(ChatGPT APIコール)。
関連論文リスト
- AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Rethinking and Benchmarking Predict-then-Optimize Paradigm for
Combinatorial Optimization Problems [62.25108152764568]
多くのWebアプリケーションは、エネルギーコストを考慮したスケジューリング、Web広告の予算配分、ソーシャルネットワークでのグラフマッチングなど、最適化問題の解決に頼っている。
統一システムにおける予測と意思決定の性能について考察する。
我々は、現在のアプローチを包括的に分類し、既存の実験シナリオを統合する。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Make Your Decision Convincing! A Unified Two-Stage Framework:
Self-Attribution and Decision-Making [24.906886146275127]
自己貢献・意思決定(SADM)として知られる統合された2段階の枠組みを提案する。
我々のフレームワークは、生成した合理性とモデル決定とのより信頼性の高いリンクを確立するだけでなく、タスク性能と合理性の品質の競争結果も達成している。
論文 参考訳(メタデータ) (2023-10-20T15:59:57Z) - E-NER: Evidential Deep Learning for Trustworthy Named Entity Recognition [69.87816981427858]
ほとんどの名前付きエンティティ認識(NER)システムは、モデル不確実性を定量化する必要性を無視して、モデルパフォーマンスの改善に重点を置いている。
Evidential Deep Learning (EDL) は、最近、分類タスクの予測不確実性を明示的にモデル化するための有望な解決策として提案されている。
本稿では、従来のEDLに2つの不確実性誘導損失条件を導入し、一連の不確実性誘導訓練戦略を導入することにより、E-NERという信頼性の高いNERフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:36:16Z) - Explainability's Gain is Optimality's Loss? -- How Explanations Bias
Decision-making [0.0]
説明は、アルゴリズムと人間の意思決定者とのコミュニケーションを促進するのに役立つ。
因果モデルに関する特徴に基づく説明のセマンティクスは、意思決定者の以前の信念から漏れを引き起こす。
このような違いは、準最適かつ偏った決定結果をもたらす可能性がある。
論文 参考訳(メタデータ) (2022-06-17T11:43:42Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - A Machine Learning Framework Towards Transparency in Experts' Decision
Quality [0.0]
多くの重要な設定において、専門家の意思決定の質の透明性は、専門家の判断を評価するための根拠となる真理のデータがコストが高く、限られた一連の決定のためにのみ利用できるため、めったに不可能である。
まず、この設定で専門家の判断精度を推定し、それに対応するための機械学習ベースのフレームワークを開発するという問題を定式化する。
本手法は, 労働者の過去の意思決定に関する豊富な歴史的データと, 根拠となる真理情報による意思決定事例の不足を効果的に活用する。
論文 参考訳(メタデータ) (2021-10-21T18:50:40Z) - Causal Strategic Linear Regression [5.672132510411465]
信用スコアや学術試験のような多くの予測的な意思決定シナリオでは、意思決定者は、決定ルールを「ゲーム」するためにエージェントの正当性を説明するモデルを構築しなければならない。
私たちは、変更可能な属性の関数として、モデリングエージェントの結果の同時処理に参加します。
3つの異なる意思決定目標を最適化する意思決定ルールを学習するための効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-02-24T03:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。