論文の概要: DeLLMa: Decision Making Under Uncertainty with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.02392v3
- Date: Fri, 11 Oct 2024 17:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:16.781700
- Title: DeLLMa: Decision Making Under Uncertainty with Large Language Models
- Title(参考訳): DeLLMa: 大きな言語モデルで不確実な意思決定
- Authors: Ollie Liu, Deqing Fu, Dani Yogatama, Willie Neiswanger,
- Abstract要約: DeLLMaは不確実な環境での意思決定の精度を高めるために設計されたフレームワークである。
DeLLMaは主要な言語モデルの意思決定性能を継続的に向上し、競合する手法に比べて最大40%の精度向上を達成できることを示す。
- 参考スコア(独自算出の注目度): 31.77731889916652
- License:
- Abstract: The potential of large language models (LLMs) as decision support tools is increasingly being explored in fields such as business, engineering, and medicine, which often face challenging tasks of decision-making under uncertainty. In this paper, we show that directly prompting LLMs on these types of decision-making problems can yield poor results, especially as the problem complexity increases. To aid in these tasks, we propose DeLLMa (Decision-making Large Language Model assistant), a framework designed to enhance decision-making accuracy in uncertain environments. DeLLMa involves a multi-step reasoning procedure that integrates recent best practices in scaling inference-time reasoning, drawing upon principles from decision theory and utility theory, to provide an accurate and human-auditable decision-making process. We validate our procedure on multiple realistic decision-making environments, demonstrating that DeLLMa can consistently enhance the decision-making performance of leading language models, and achieve up to a 40% increase in accuracy over competing methods. Additionally, we show how performance improves when scaling compute at test time, and carry out human evaluations to benchmark components of DeLLMa.
- Abstract(参考訳): 意思決定支援ツールとしての大規模言語モデル(LLM)の可能性は、ビジネス、エンジニアリング、医療など、不確実性の下で意思決定の困難な課題に直面している分野において、ますます探究されている。
本稿では,このような意思決定問題に対して LLM を直接的に促すことは,特に問題複雑性が増大するにつれて,悪い結果をもたらす可能性があることを示す。
これらのタスクを支援するために,不確実な環境での意思決定精度を高めるためのフレームワークであるDeLLMa(Decision-making Large Language Model Assistant)を提案する。
DeLLMaは、推論時間推論のスケーリングにおける最近のベストプラクティスを統合し、意思決定理論とユーティリティ理論の原則に基づいて、正確で人間の判断可能な意思決定プロセスを提供する、多段階の推論手順である。
提案手法を複数の現実的意思決定環境上で検証し,DeLLMaが主要な言語モデルの意思決定性能を継続的に向上し,競合する手法よりも最大40%の精度向上を達成できることを実証した。
さらに,テスト時に計算処理をスケールする際の性能向上を示すとともに,DeLLMaのコンポーネントをベンチマークするために人為的な評価を行う。
関連論文リスト
- Learning-to-Defer for Extractive Question Answering [0.0]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。
その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
本稿では,大規模言語モデル(LLM)の意思決定過程における認知バイアスの役割について検討する。
適切なバランスをとると、ある程度の認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることが示される。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - Rational Decision-Making Agent with Internalized Utility Judgment [91.80700126895927]
大規模言語モデル(LLM)は目覚ましい進歩を示し、従来のNLPアプリケーションを超えて複雑な多段階決定タスクを実行できるエージェントにLLMを開発するための重要な努力を惹きつけている。
本稿では,RadAgentを提案する。このRadAgentは,経験探索とユーティリティ学習を含む反復的なフレームワークを通じて,合理性の発展を促進する。
ToolBenchデータセットの実験結果は、RadAgentがベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-08-24T03:11:45Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。