Fugu-MT 論文翻訳(概要): Rational Decision-Making Agent with Internalized Utility Judgment

論文の概要: Rational Decision-Making Agent with Internalized Utility Judgment

arxiv url: http://arxiv.org/abs/2308.12519v3
Date: Mon, 09 Jun 2025 00:28:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 21:10:46.726809
Title: Rational Decision-Making Agent with Internalized Utility Judgment
Title（参考訳）: 内部的効用判断を伴う合理的意思決定エージェント
Authors: Yining Ye, Xin Cong, Shizuo Tian, Yujia Qin, Chong Liu, Yankai Lin, Zhiyuan Liu, Maosong Sun,
Abstract要約: 大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。 ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
参考スコア（独自算出の注目度）: 88.01612847081677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated remarkable advancements and have attracted significant efforts to develop LLMs into agents capable of executing intricate multi-step decision-making tasks beyond traditional NLP applications. Existing approaches to LLM-based decision-making predominantly build upon the manually-designed external performance metrics to guide the decision-making process. However, reliance on the external performance metrics as prior is problematic in real-world scenarios, where such prior may be unavailable, flawed, or even erroneous. For genuine autonomous decision making, it is imperative for the agent to develop its rationality from its posterior experiences to judge decisions independently. Central to the development of rationality is the construction of an internalized utility judgment, capable of assigning numerical utilities to each decision. This paper proposes RadAgent (Rational Decision-Making Agent), which fosters the development of its rationality through an iterative framework involving Experience Exploration and Utility Learning. Within this framework, Elo-based Utility Construction is devised to assign Elo scores to individual decision steps to judge their utilities via pairwise comparisons. Consequently, these Elo scores guide the decision-making process to derive optimal outcomes. Experimental results on the ToolBench dataset demonstrate RadAgent's superiority over baselines, achieving over 10% improvement in Pass Rate on diverse tasks. It offers higher-quality solutions and reduces costs (ChatGPT API calls), highlighting its effectiveness and efficiency.
Abstract（参考訳）: 大規模言語モデル (LLM) は目覚ましい進歩を見せており、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するために多大な努力を払っている。 LLMベースの意思決定への既存のアプローチは、主に手動で設計した外部パフォーマンスメトリクスに基づいて意思決定プロセスを導く。しかし、現実のシナリオでは、そのような事前が利用できない、欠陥がある、あるいは誤っている場合に、以前のように外部のパフォーマンス指標に依存することが問題となる。真の自律的な意思決定には、エージェントが後続の経験から合理性を発達させ、独立して判断を下すことが不可欠である。合理性の発展の中心は、各決定に数値ユーティリティを割り当てることのできる、内部化されたユーティリティ判断の構築である。本稿では,RadAgent(Rational Decision-Making Agent)を提案する。このフレームワークの中で、Eloベースのユーティリティ構築(Utility Construction)は、Eloスコアを個々の意思決定ステップに割り当てて、ペア比較を通じてユーティリティを判断するように設計されている。その結果、これらのエロスコアは意思決定プロセスに最適な結果をもたらす。 ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。高品質なソリューションを提供し、コストを削減する(ChatGPT APIコール)。

関連論文リスト

A Framework for Assessing AI Agent Decisions and Outcomes in AutoML Pipelines [10.389238449467136]
エージェントベースのAutoMLシステムは、データ処理、モデル選択、評価にまたがる複雑な多段階決定を行うために、大きな言語モデルに依存している。我々の研究は、結果に基づく観点からエージェントオートMLシステムの評価を、エージェント決定を監査するシステムに再編成する。
論文参考訳（メタデータ） (2026-02-25T22:02:00Z)
AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。 AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文参考訳（メタデータ） (2025-11-11T14:57:54Z)
Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文参考訳（メタデータ） (2025-11-11T13:40:46Z)
ClearFairy: Capturing Creative Workflows through Decision Structuring, In-Situ Questioning, and Rationale Inference [59.65947911667229]
本稿では,行動・人工物・自己説明の認知的意思決定ステップに推論を関連づけるCLEARフレームワークを提案する。 ClearFairyはUI設計のための思考支援AIアシスタントで、弱い説明を検知し、軽量で明確な質問をし、知識共有の負担を軽減するために、根拠の欠如を推測する。
論文参考訳（メタデータ） (2025-09-18T02:11:34Z)
AgentCDM: Enhancing Multi-Agent Collaborative Decision-Making via ACH-Inspired Structured Reasoning [8.566904810788213]
AgentCDMはマルチエージェントシステムにおける協調的意思決定を強化するための構造化フレームワークである。認知バイアスを内部化し、意思決定を受動的回答の選択からアクティブな仮説評価と構築へとシフトさせる。複数のベンチマークデータセットの実験は、AgentCDMが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-08-16T09:46:04Z)
AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager [9.21215885702746]
AIM-Benchは、不確実なサプライチェーン管理シナリオにおいて、大規模言語モデル(LLM)の意思決定行動を評価するために設計された新しいベンチマークである。以上の結果から, LLMは人体とよく似た, 決定バイアスの度合いが異なることが明らかとなった。
論文参考訳（メタデータ） (2025-08-15T11:38:19Z)
DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文参考訳（メタデータ） (2025-07-31T13:42:14Z)
SAND: Boosting LLM Agents with Self-Taught Action Deliberation [53.732649189709285]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。 SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文参考訳（メタデータ） (2025-07-10T05:38:15Z)
Towards Objective and Unbiased Decision Assessments with LLM-Enhanced Hierarchical Attention Networks [6.520709313101523]
本研究では,人的専門家による高い意思決定過程における認知バイアスの識別について検討する。人間の判断を超越したバイアス対応AI拡張ワークフローを提案する。実験では,提案モデルとエージェントワークフローの両方が,人間の判断と代替モデルの両方において有意に改善されている。
論文参考訳（メタデータ） (2024-11-13T10:42:11Z)
Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文参考訳（メタデータ） (2024-10-20T16:08:54Z)
Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文参考訳（メタデータ） (2024-08-30T05:14:59Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文参考訳（メタデータ） (2024-06-16T16:25:22Z)
DeLLMa: Decision Making Under Uncertainty with Large Language Models [31.77731889916652]
DeLLMaは不確実な環境での意思決定の精度を高めるために設計されたフレームワークである。 DeLLMaは主要な言語モデルの意思決定性能を継続的に向上し、競合する手法に比べて最大40%の精度向上を達成できることを示す。
論文参考訳（メタデータ） (2024-02-04T08:11:45Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Explainability's Gain is Optimality's Loss? -- How Explanations Bias Decision-making [0.0]
説明は、アルゴリズムと人間の意思決定者とのコミュニケーションを促進するのに役立つ。因果モデルに関する特徴に基づく説明のセマンティクスは、意思決定者の以前の信念から漏れを引き起こす。このような違いは、準最適かつ偏った決定結果をもたらす可能性がある。
論文参考訳（メタデータ） (2022-06-17T11:43:42Z)
Inverse Online Learning: Understanding Non-Stationary and Reactionary Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。 UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文参考訳（メタデータ） (2022-03-14T17:40:42Z)
Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文参考訳（メタデータ） (2021-01-24T05:40:29Z)
Causal Strategic Linear Regression [5.672132510411465]
信用スコアや学術試験のような多くの予測的な意思決定シナリオでは、意思決定者は、決定ルールを「ゲーム」するためにエージェントの正当性を説明するモデルを構築しなければならない。私たちは、変更可能な属性の関数として、モデリングエージェントの結果の同時処理に参加します。 3つの異なる意思決定目標を最適化する意思決定ルールを学習するための効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2020-02-24T03:57:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。