Fugu-MT 論文翻訳(概要): Exploration With a Finite Brain

論文の概要: Exploration With a Finite Brain

arxiv url: http://arxiv.org/abs/2201.11817v1
Date: Thu, 27 Jan 2022 21:49:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-01 10:24:41.995041
Title: Exploration With a Finite Brain
Title（参考訳）: 有限の脳による探索
Authors: Marcel Binz, Eric Schulz
Abstract要約: 人間は探検と搾取のトレードオフを懸命に管理しているようだ。本稿では,メタラーニング強化学習アルゴリズムを用いて,短い記述長で性能を犠牲にする仮説について検討する。さらに、記述長の変化が意図した効果をもたらすことを実証する。記述長の減少は、脳卒中患者の振る舞いを捉えながら、青年期の認知発達を反映する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Equipping artificial agents with useful exploration mechanisms remains a challenge to this day. Humans, on the other hand, seem to manage the trade-off between exploration and exploitation effortlessly. In the present article, we put forward the hypothesis that they accomplish this by making optimal use of limited computational resources. We study this hypothesis by meta-learning reinforcement learning algorithms that sacrifice performance for a shorter description length. The emerging class of models captures human exploration behavior better than previously considered approaches, such as Boltzmann exploration, upper confidence bound algorithms, and Thompson sampling. We additionally demonstrate that changes in description length produce the intended effects: reducing description length captures the behavior of brain-lesioned patients while increasing it echoes cognitive development during adolescence.
Abstract（参考訳）: 有用な探索メカニズムを備えた人工エージェントの装備は、今日でも課題となっている。一方、人間は探索と搾取の間のトレードオフを無益に管理しているように見える。本稿では,限られた計算資源を最適に利用することでこれを達成できるという仮説を提起する。この仮説をメタラーニング強化学習アルゴリズムを用いて検討し,短い記述期間で性能を犠牲にする。新たなタイプのモデルでは、ボルツマン探索、高信頼境界アルゴリズム、トンプソンサンプリングなど、以前に検討されたアプローチよりも人間の探索行動をキャプチャする。さらに、記述長の変化が意図した効果をもたらすことを実証する。記述長の減少は、脳卒中患者の振る舞いを捉えながら、青年期の認知発達を反映する。

関連論文リスト

Behavioral Exploration: Learning to Explore via In-Context Adaptation [53.92981562916783]
我々は、過去の観察の文脈で条件付けられた専門家の行動を予測し、専門家の行動がこの文脈とどのように関係しているかを測定するために、長期コンテキスト生成モデルを訓練する。これにより、モデルが専門家の振る舞いを模倣するだけでなく、過去の相互作用の歴史を文脈に反映することで、これまで選択されたものと異なる専門家の振る舞いを選択することができる。本手法は実環境におけるロボット操作作業だけでなく,シミュレーションロコモーションと操作設定の両方において有効であることを示す。
論文参考訳（メタデータ） (2025-07-11T21:36:19Z)
Exploration by Running Away from the Past [5.062282108230929]
我々は、州占領対策のシャノンエントロピーを最大化する問題として探索を考えている。これは、エージェントの過去の振舞いと現在の振舞いを表す分布間の相違の列を最大化する。本研究では,過去の経験から積極的に距離を置くことによってエージェントの探索を促すことで,迷路を効果的に探索し,ロボット操作や移動作業における幅広い行動を明らかにすることを実証する。
論文参考訳（メタデータ） (2024-11-21T12:51:09Z)
Do Mice Grok? Glimpses of Hidden Progress During Overtraining in Sensory Cortex [32.79706360108185]
マウスにおけるこのような学習の証拠は, 動作がほぼ順調に保たれた後, タスクの継続訓練後に見つかる(オーバートレーニング)。オーバートレーニングの開始時に誤って分類された例は,その間は行動が変化しなかったものの,後から即座に分類できることが実証された。このモデルが,動物学習における逆転を過剰に学習する経験的パズルについて,どのように説明するかを示す。
論文参考訳（メタデータ） (2024-11-05T22:42:49Z)
Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。補助剤は、人間の行動の影響を最大化することを目的としている。これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文参考訳（メタデータ） (2024-11-04T21:31:04Z)
Can Language Models Learn to Skip Steps? [59.84848399905409]
我々は推論においてステップをスキップする能力について研究する。効率を高めたり認知負荷を減らすためのステップをスキップする人間とは異なり、モデルはそのようなモチベーションを持っていない。私たちの研究は、人間のようなステップスキッピング能力に関する最初の調査である。
論文参考訳（メタデータ） (2024-11-04T07:10:24Z)
Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文参考訳（メタデータ） (2023-08-21T22:40:36Z)
NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical Development Patterns of Preterm Infants [73.85768093666582]
我々はNeuroExplainerと呼ばれる説明可能な幾何学的深層ネットワークを提案する。 NeuroExplainerは、早産に伴う幼児の皮質発達パターンの解明に使用される。
論文参考訳（メタデータ） (2023-01-01T12:48:12Z)
A Neural Active Inference Model of Perceptual-Motor Learning [62.39667564455059]
アクティブ推論フレームワーク(英: active inference framework、AIF)は、現代の神経科学を基盤とした、有望な新しい計算フレームワークである。本研究では,ヒトの視覚行動指導において,AIFが期待する役割を捉える能力をテストする。本稿では,多次元世界状態から自由エネルギーの一次元分布にマッピングする先行関数の新たな定式化について述べる。
論文参考訳（メタデータ） (2022-11-16T20:00:38Z)
Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文参考訳（メタデータ） (2022-04-17T11:21:18Z)
Bayesian sense of time in biological and artificial brains [1.52292571922932]
時間の経過を処理する脳の能力は、私たちの経験の基本的な次元の1つです。ベイジアン脳仮説を用いて、人間の時間知覚に関する経験的データをどのように説明できるのか? エージェントベースの機械学習モデルは、この主題の研究にどのような洞察を与えることができるのか?
論文参考訳（メタデータ） (2022-01-14T14:05:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。