論文の概要: Feedback-Induced Performance Decline in LLM-Based Decision-Making
- arxiv url: http://arxiv.org/abs/2507.14906v1
- Date: Sun, 20 Jul 2025 10:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.117533
- Title: Feedback-Induced Performance Decline in LLM-Based Decision-Making
- Title(参考訳): LLMに基づく意思決定におけるフィードバック誘起性能低下
- Authors: Xiao Yang, Juxi Leitner, Michael Burke,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
- 参考スコア(独自算出の注目度): 6.5990946334144756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of Large Language Models (LLMs) to extract context from natural language problem descriptions naturally raises questions about their suitability in autonomous decision-making settings. This paper studies the behaviour of these models within a Markov Decision Process (MDPs). While traditional reinforcement learning (RL) strategies commonly employed in this setting rely on iterative exploration, LLMs, pre-trained on diverse datasets, offer the capability to leverage prior knowledge for faster adaptation. We investigate online structured prompting strategies in sequential decision making tasks, comparing the zero-shot performance of LLM-based approaches to that of classical RL methods. Our findings reveal that although LLMs demonstrate improved initial performance in simpler environments, they struggle with planning and reasoning in complex scenarios without fine-tuning or additional guidance. Our results show that feedback mechanisms, intended to improve decision-making, often introduce confusion, leading to diminished performance in intricate environments. These insights underscore the need for further exploration into hybrid strategies, fine-tuning, and advanced memory integration to enhance LLM-based decision-making capabilities.
- Abstract(参考訳): 自然言語問題記述から文脈を抽出するLarge Language Models(LLMs)の能力は、自律的な意思決定環境におけるそれらの適合性に関する疑問を自然に提起する。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
従来の強化学習(RL)戦略は反復探索に頼っているが、LLMは様々なデータセットに基づいて事前訓練され、より高速な適応のために事前知識を活用する能力を提供する。
LLMに基づく手法のゼロショット性能を古典的RL法と比較し、逐次意思決定タスクにおけるオンライン構造化プロンプト戦略について検討する。
以上の結果から,LSMはより単純な環境での初期性能の向上を実証するが,複雑なシナリオにおいて詳細な調整や追加のガイダンスを伴わずに計画や推論に苦慮していることが明らかとなった。
以上の結果から, 意思決定の改善を目的としたフィードバック機構は, 混乱を招くことが多く, 複雑な環境下での性能低下につながることが示唆された。
これらの洞察は、LLMベースの意思決定能力を高めるために、ハイブリッド戦略、微調整、高度なメモリ統合に関するさらなる調査の必要性を浮き彫りにした。
関連論文リスト
- Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文 参考訳(メタデータ) (2025-06-04T14:58:27Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Enhancing Decision-Making in Optimization through LLM-Assisted Inference: A Neural Networks Perspective [1.0420394952839245]
本稿では,生成型AI(GenAI)と進化型アルゴリズム(EA)のシームレスな統合について検討する。
大規模言語モデル(LLM)の変換的役割に着目し,LLM支援推論による意思決定プロセスの自動化と向上の可能性について検討した。
論文 参考訳(メタデータ) (2024-05-12T08:22:53Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。