論文の概要: DSADF: Thinking Fast and Slow for Decision Making
- arxiv url: http://arxiv.org/abs/2505.08189v1
- Date: Tue, 13 May 2025 02:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.40186
- Title: DSADF: Thinking Fast and Slow for Decision Making
- Title(参考訳): DSADF: 意思決定の迅速かつ低調な考え方
- Authors: Alex Zhihao Dou, Dongfei Cui, Jun Yan, Weida Wang, Benteng Chen, Haoming Wang, Zeke Xie, Shufei Zhang,
- Abstract要約: RLエージェントと高速かつ直感的な意思決定のためのメモリ空間からなるシステム1と、深く解析的な推論のためのVLMによって駆動されるシステム2の2つの補完モジュールを統合するためのデュアルシステム適応決定フレームワーク(DSADF)を提案する。
- 参考スコア(独自算出の注目度): 9.84593001541736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Reinforcement Learning (RL) agents are effective in well-defined environments, they often struggle to generalize their learned policies to dynamic settings due to their reliance on trial-and-error interactions. Recent work has explored applying Large Language Models (LLMs) or Vision Language Models (VLMs) to boost the generalization of RL agents through policy optimization guidance or prior knowledge. However, these approaches often lack seamless coordination between the RL agent and the foundation model, leading to unreasonable decision-making in unfamiliar environments and efficiency bottlenecks. Making full use of the inferential capabilities of foundation models and the rapid response capabilities of RL agents and enhancing the interaction between the two to form a dual system is still a lingering scientific question. To address this problem, we draw inspiration from Kahneman's theory of fast thinking (System 1) and slow thinking (System 2), demonstrating that balancing intuition and deep reasoning can achieve nimble decision-making in a complex world. In this study, we propose a Dual-System Adaptive Decision Framework (DSADF), integrating two complementary modules: System 1, comprising an RL agent and a memory space for fast and intuitive decision making, and System 2, driven by a VLM for deep and analytical reasoning. DSADF facilitates efficient and adaptive decision-making by combining the strengths of both systems. The empirical study in the video game environment: Crafter and Housekeep demonstrates the effectiveness of our proposed method, showing significant improvements in decision abilities for both unseen and known tasks.
- Abstract(参考訳): 強化学習(RL)エージェントは、明確に定義された環境で有効であるが、トライアルとエラーの相互作用に依存するため、学習したポリシーを動的設定に一般化するのに苦労することが多い。
最近の研究は、政策最適化ガイダンスや事前知識を通じて、RLエージェントの一般化を促進するために、LLM(Large Language Models)またはVLM(Vision Language Models)の適用について検討している。
しかしながら、これらのアプローチはRLエージェントと基礎モデルのシームレスな調整を欠くことが多く、不慣れな環境における不合理な決定と効率のボトルネックをもたらす。
基礎モデルの推論能力とRLエージェントの迅速な応答能力を完全に活用し、二重系を形成するために両者の相互作用を強化することは、いまだに退屈な科学的問題である。
この問題に対処するために、カーネマンのファストシンキング理論(システム1)とスローシンキング理論(システム2)からインスピレーションを得て、複雑な世界で直観と深い推論のバランスをとることで、微妙な意思決定が可能になることを実証する。
本研究では,RLエージェントと高速かつ直感的な意思決定のためのメモリ空間からなるシステム1と,深く解析的な推論のためのVLMによって駆動されるシステム2という,2つの補完モジュールを統合したデュアルシステム適応決定フレームワーク(DSADF)を提案する。
DSADFは、両方のシステムの強みを組み合わせることにより、効率的かつ適応的な意思決定を容易にする。
コンピュータゲーム環境における実証的研究: CrafterとHousekeepは,提案手法の有効性を示し,未確認タスクと既知のタスクの両方において,決定能力の大幅な向上を示す。
関連論文リスト
- A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks [39.43278448546028]
カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。
近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。
本研究では、自己学習を通じて、意図的な推論から直感的な応答へと進化するLLM(textbfCognidual Framework for LLMs, CFLLMs)について述べる。
論文 参考訳(メタデータ) (2024-09-05T09:33:24Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving [84.31119464141631]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。