Fugu-MT 論文翻訳(概要): Rational Decision-Making Agent with Internalized Utility Judgment

論文の概要: Rational Decision-Making Agent with Internalized Utility Judgment

arxiv url: http://arxiv.org/abs/2308.12519v2
Date: Wed, 17 Jan 2024 13:09:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 21:05:36.200422
Title: Rational Decision-Making Agent with Internalized Utility Judgment
Title（参考訳）: 内部的効用判断を伴う合理的意思決定エージェント
Authors: Yining Ye, Xin Cong, Shizuo Tian, Yujia Qin, Chong Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun
Abstract要約: 大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。 ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
参考スコア（独自算出の注目度）: 91.80700126895927
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated remarkable advancements and have attracted significant efforts to develop LLMs into agents capable of executing intricate multi-step decision-making tasks beyond traditional NLP applications. Existing approaches to LLM-based decision-making predominantly build upon the manually-designed external performance metrics to guide the decision-making process. However, reliance on the external performance metrics as prior is problematic in real-world scenarios, where such prior may be unavailable, flawed, or even erroneous. For genuine autonomous decision making, it is imperative for the agent to develop its rationality from its posterior experiences to judge decisions independently. Central to the development of rationality is the construction of an internalized utility judgment, capable of assigning numerical utilities to each decision. This paper proposes RadAgent (Rational Decision-Making Agent), which fosters the development of its rationality through an iterative framework involving Experience Exploration and Utility Learning. Within this framework, Elo-based Utility Construction is devised to assign Elo scores to individual decision steps to judge their utilities via pairwise comparisons. Consequently, these Elo scores guide the decision-making process to derive optimal outcomes. Experimental results on the ToolBench dataset demonstrate RadAgent's superiority over baselines, achieving over 10% improvement in Pass Rate on diverse tasks. It offers higher-quality solutions and reduces costs (ChatGPT API calls), highlighting its effectiveness and efficiency.
Abstract（参考訳）: 大規模言語モデル(LLM)は目覚ましい進歩を示しており、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行することができるエージェントにLLMを開発するための重要な努力を惹きつけている。 LLMベースの意思決定への既存のアプローチは、主に手動で設計した外部パフォーマンスメトリクスに基づいて意思決定プロセスを導く。しかし、実際のシナリオでは、事前として外部のパフォーマンスメトリクスに依存することは問題であり、そのような前処理が使用できない、欠陥がある、あるいは誤った場合さえある。真の自律的意思決定では、エージェントが決定を独立に判断するために、後からの経験から合理性を開発することが不可欠である。合理性の発展の中心は、各決定に数値的なユーティリティを割り当てることができる内部的なユーティリティ判断の構築である。本稿では,経験探索と実用学習を含む反復的枠組みによる合理性の発達を促進するラダジェント(合理的意思決定エージェント)を提案する。このフレームワークの中で、eloベースのユーティリティ構築は、eloスコアを個々の決定ステップに割り当て、ペアワイズ比較によってユーティリティを判断するために考案される。その結果、これらのエロスコアは意思決定プロセスに最適な結果をもたらす。 toolbenchデータセットの実験結果は、radagentがベースラインよりも優れていることを示し、さまざまなタスクでパスレートを10%以上向上させた。高品質なソリューションを提供し、コストを削減する(ChatGPT APIコール)。

関連論文リスト

DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文参考訳（メタデータ） (2025-07-31T13:42:14Z)
SAND: Boosting LLM Agents with Self-Taught Action Deliberation [53.732649189709285]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。 SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文参考訳（メタデータ） (2025-07-10T05:38:15Z)
Towards Objective and Unbiased Decision Assessments with LLM-Enhanced Hierarchical Attention Networks [6.520709313101523]
本研究では,人的専門家による高い意思決定過程における認知バイアスの識別について検討する。人間の判断を超越したバイアス対応AI拡張ワークフローを提案する。実験では,提案モデルとエージェントワークフローの両方が,人間の判断と代替モデルの両方において有意に改善されている。
論文参考訳（メタデータ） (2024-11-13T10:42:11Z)
Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文参考訳（メタデータ） (2024-10-20T16:08:54Z)
Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文参考訳（メタデータ） (2024-08-30T05:14:59Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文参考訳（メタデータ） (2024-06-16T16:25:22Z)
DeLLMa: Decision Making Under Uncertainty with Large Language Models [31.77731889916652]
DeLLMaは不確実な環境での意思決定の精度を高めるために設計されたフレームワークである。 DeLLMaは主要な言語モデルの意思決定性能を継続的に向上し、競合する手法に比べて最大40%の精度向上を達成できることを示す。
論文参考訳（メタデータ） (2024-02-04T08:11:45Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Explainability's Gain is Optimality's Loss? -- How Explanations Bias Decision-making [0.0]
説明は、アルゴリズムと人間の意思決定者とのコミュニケーションを促進するのに役立つ。因果モデルに関する特徴に基づく説明のセマンティクスは、意思決定者の以前の信念から漏れを引き起こす。このような違いは、準最適かつ偏った決定結果をもたらす可能性がある。
論文参考訳（メタデータ） (2022-06-17T11:43:42Z)
Inverse Online Learning: Understanding Non-Stationary and Reactionary Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。 UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文参考訳（メタデータ） (2022-03-14T17:40:42Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)
Causal Strategic Linear Regression [5.672132510411465]
信用スコアや学術試験のような多くの予測的な意思決定シナリオでは、意思決定者は、決定ルールを「ゲーム」するためにエージェントの正当性を説明するモデルを構築しなければならない。私たちは、変更可能な属性の関数として、モデリングエージェントの結果の同時処理に参加します。 3つの異なる意思決定目標を最適化する意思決定ルールを学習するための効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2020-02-24T03:57:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。