論文の概要: Credit Assignment: Challenges and Opportunities in Developing Human-like
AI Agents
- arxiv url: http://arxiv.org/abs/2307.08171v1
- Date: Sun, 16 Jul 2023 23:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 15:13:41.968912
- Title: Credit Assignment: Challenges and Opportunities in Developing Human-like
AI Agents
- Title(参考訳): クレジット割り当て:人間ライクなaiエージェント開発における挑戦と機会
- Authors: Thuy Ngoc Nguyen and Chase McDonald and Cleotilde Gonzalez
- Abstract要約: 時間的クレジット割り当ては、自然と人工知能の学習とスキル開発に不可欠である。
目標探索ナビゲーションタスクにおいて,経験からの意思決定理論に基づく認知モデルを用いて,異なるクレジット割り当て機構をテストする。
我々は、全ての決定に等しいクレジット割り当てを与えるILBモデルが、他のモデルよりも人間のパフォーマンスによく適合することを発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal credit assignment is crucial for learning and skill development in
natural and artificial intelligence. While computational methods like the TD
approach in reinforcement learning have been proposed, it's unclear if they
accurately represent how humans handle feedback delays. Cognitive models intend
to represent the mental steps by which humans solve problems and perform a
number of tasks, but limited research in cognitive science has addressed the
credit assignment problem in humans and cognitive models. Our research uses a
cognitive model based on a theory of decisions from experience, Instance-Based
Learning Theory (IBLT), to test different credit assignment mechanisms in a
goal-seeking navigation task with varying levels of decision complexity.
Instance-Based Learning (IBL) models simulate the process of making sequential
choices with different credit assignment mechanisms, including a new IBL-TD
model that combines the IBL decision mechanism with the TD approach. We found
that (1) An IBL model that gives equal credit assignment to all decisions is
able to match human performance better than other models, including IBL-TD and
Q-learning; (2) IBL-TD and Q-learning models underperform compared to humans
initially, but eventually, they outperform humans; (3) humans are influenced by
decision complexity, while models are not. Our study provides insights into the
challenges of capturing human behavior and the potential opportunities to use
these models in future AI systems to support human activities.
- Abstract(参考訳): 時間的クレジット割り当ては、自然と人工知能の学習とスキル開発に不可欠である。
強化学習におけるTDアプローチのような計算手法が提案されているが、人間がフィードバックの遅延を処理する方法を正確に表現しているかどうかは不明だ。
認知モデルは、人間が問題解決し、多くのタスクを実行する精神的なステップを表現することを意図しているが、認知科学における限られた研究は、人間と認知モデルにおける信用割り当ての問題に対処している。
本研究は,経験に基づく意思決定理論,インスタンスベース学習理論(iblt)に基づいた認知モデルを用いて,意思決定複雑性のレベルが異なる目標探索ナビゲーションタスクにおいて,異なるクレジット割り当て機構をテストする。
インスタンスベース学習(IBL)モデルは、IBL決定機構とTDアプローチを組み合わせた新しいIBL-TDモデルを含む、異なるクレジット割り当てメカニズムでシーケンシャルな選択を行うプロセスをシミュレートする。
その結果,(1)IBL-TDやQ-ラーニングを含む他のモデルよりも優れた評価が得られること,(2)IBL-TDやQ-ラーニングモデルは当初は人間よりも優れていなかったが,最終的には人間より優れていること,(3)人間は意思決定の複雑さの影響を受けており,モデルはそうではない。
我々の研究は、人間の行動を把握することの課題と、これらのモデルを将来のAIシステムで人間の活動を支援する機会についての洞察を提供する。
関連論文リスト
- Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。
効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。
私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文 参考訳(メタデータ) (2024-11-04T07:10:24Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Mimicking Human Intuition: Cognitive Belief-Driven Q-Learning [5.960184723807347]
本稿では,主観的信念モデリングをQラーニングフレームワークに統合した認知的信念駆動型Qラーニング(CBDQ)を提案する。
CBDQは、人間のような学習能力と推論能力を持つエージェントを提供することで、意思決定の精度を高める。
各種複雑環境における離散制御ベンチマークタスクについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-10-02T16:50:29Z) - Towards Neural Network based Cognitive Models of Dynamic Decision-Making by Humans [16.72938921687168]
私たちはインスタンスベースの学習(IBL)に基づいて、人間の決定は過去に遭遇した同様の状況に基づいていると仮定します。
本研究では,2つの新しい注意型ニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T20:28:03Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Explain To Decide: A Human-Centric Review on the Role of Explainable
Artificial Intelligence in AI-assisted Decision Making [1.0878040851638]
機械学習モデルはエラーを起こしやすく、自律的に使用することはできない。
説明可能な人工知能(XAI)は、エンドユーザーによるモデルの理解を支援する。
本稿では,XAIの人間-AI意思決定への影響に関する最近の実証的研究について報告する。
論文 参考訳(メタデータ) (2023-12-11T22:35:21Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Deep Learning Reproducibility and Explainable AI (XAI) [9.13755431537592]
ディープラーニング(DL)学習アルゴリズムの非決定性とそのニューラルネットワーク(NN)モデルの説明可能性への影響について検討した。
この問題について議論するため、2つの畳み込みニューラルネットワーク(CNN)をトレーニングし、その結果を比較した。
論文 参考訳(メタデータ) (2022-02-23T12:06:20Z) - On the Opportunities and Risks of Foundation Models [256.61956234436553]
これらのモデルの基礎モデルは、批判的に中心的だが不完全な性格を根底から立証するものです。
本報告では,基礎モデルの可能性とリスクについて概説する。
これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文 参考訳(メタデータ) (2021-08-16T17:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。