Fugu-MT 論文翻訳(概要): Life, uh, Finds a Way: Systematic Neural Search

論文の概要: Life, uh, Finds a Way: Systematic Neural Search

arxiv url: http://arxiv.org/abs/2410.01349v1
Date: Wed, 2 Oct 2024 09:06:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 21:39:21.796369
Title: Life, uh, Finds a Way: Systematic Neural Search
Title（参考訳）: 生命の発見方法:システマティック・ニューラル・サーチ
Authors: Alex Baranski, Jun Tani,
Abstract要約: エージェントの動作に迅速に適応して、設定における継続的な問題を解決するという課題に取り組みます。深層強化学習に焦点をあてる代わりに,探索手順の物理的表現としての視聴行動を提案する。本稿では,行動実行とグラフの突然変異の間の厳密なフィードバックループを調節することにより,行動の暗黙的な列挙を行うアルゴリズムについて述べる。
参考スコア（独自算出の注目度）: 2.163881720692685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We tackle the challenge of rapidly adapting an agent's behavior to solve spatiotemporally continuous problems in novel settings. Animals exhibit extraordinary abilities to adapt to new contexts, a capacity unmatched by artificial systems. Instead of focusing on generalization through deep reinforcement learning, we propose viewing behavior as the physical manifestation of a search procedure, where robust problem-solving emerges from an exhaustive search across all possible behaviors. Surprisingly, this can be done efficiently using online modification of a cognitive graph that guides action, challenging the predominant view that exhaustive search in continuous spaces is impractical. We describe an algorithm that implicitly enumerates behaviors by regulating the tight feedback loop between execution of behaviors and mutation of the graph, and provide a neural implementation based on Hebbian learning and a novel high-dimensional harmonic representation inspired by entorhinal cortex. By framing behavior as search, we provide a mathematically simple and biologically plausible model for real-time behavioral adaptation, successfully solving a variety of continuous state-space navigation problems. This framework not only offers a flexible neural substrate for other applications but also presents a powerful paradigm for understanding adaptive behavior. Our results suggest potential advancements in developmental learning and unsupervised skill acquisition, paving the way for autonomous robots to master complex skills in data-sparse environments demanding flexibility.
Abstract（参考訳）: エージェントの行動に迅速に適応し、新しい環境における時空間連続的な問題を解決するという課題に取り組む。動物は新しい状況に適応する素晴らしい能力を示しており、これは人工システムに適合しない能力である。深い強化学習を通した一般化に焦点をあてる代わりに、探索手順の物理的顕在化として観察行動を提案する。驚くべきことに、これは行動のガイドとなる認知グラフのオンライン修正を使って効率的に行うことができ、連続空間における徹底的な探索は現実的ではないという圧倒的な見解に挑戦する。本稿では,行動実行とグラフの変異の間の厳密なフィードバックループを調節することにより,行動の暗黙的に列挙するアルゴリズムについて述べる。探索として振舞いをフレーミングすることで、リアルタイムな振舞い適応のための数学的に単純で生物学的に妥当なモデルを提供し、様々な状態空間ナビゲーション問題の解決に成功している。このフレームワークは、他のアプリケーションに柔軟なニューラルネットワークを提供するだけでなく、適応的な振る舞いを理解するための強力なパラダイムも提供する。以上の結果から,自律型ロボットが柔軟性を必要とするデータ分散環境において,複雑なスキルを習得する上で,発達学習と教師なしスキル獲得の潜在的な進歩が示唆された。

関連論文リスト

Behavioral Exploration: Learning to Explore via In-Context Adaptation [53.92981562916783]
我々は、過去の観察の文脈で条件付けられた専門家の行動を予測し、専門家の行動がこの文脈とどのように関係しているかを測定するために、長期コンテキスト生成モデルを訓練する。これにより、モデルが専門家の振る舞いを模倣するだけでなく、過去の相互作用の歴史を文脈に反映することで、これまで選択されたものと異なる専門家の振る舞いを選択することができる。本手法は実環境におけるロボット操作作業だけでなく,シミュレーションロコモーションと操作設定の両方において有効であることを示す。
論文参考訳（メタデータ） (2025-07-11T21:36:19Z)
Logarithmic Regret for Nonlinear Control [5.473636587010879]
逐次的相互作用を通じて未知の非線形力学系を制御する学習の課題に対処する。ミスが破滅的に起こりうる高スループットアプリケーションに動機付けられ,高速な逐次学習が可能となる状況について検討する。
論文参考訳（メタデータ） (2025-01-17T15:42:42Z)
Multi-intention Inverse Q-learning for Interpretable Behavior Representation [12.135423420992334]
逆強化学習(IRL)法は、複雑な行動の基礎となる動物の意図を再構築するのに役立つことが証明されている。階層型逆Q-ラーニング(HIQL)アルゴリズムのクラスを紹介する。シミュレーション実験と実際の動物行動データセットにHIQLを適用することで、我々のアプローチは行動予測の現在のベンチマークよりも優れています。
論文参考訳（メタデータ） (2023-11-23T09:27:08Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Incremental procedural and sensorimotor learning in cognitive humanoid robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文参考訳（メタデータ） (2023-04-30T22:51:31Z)
Generative Adversarial Neuroevolution for Control Behaviour Imitation [3.04585143845864]
本稿では,一般的なシミュレーション環境における行動模倣にディープ・ニューロエボリューションが有効かどうかを考察する。我々は、単純な共進化的逆数生成フレームワークを導入し、標準の深い再帰ネットワークを進化させることにより、その能力を評価する。全てのタスクにおいて、事前訓練されたエージェントが獲得したものよりも高いスコアを達成できる最後のエリートアクターが見つかる。
論文参考訳（メタデータ） (2023-04-03T16:33:22Z)
Abrupt and spontaneous strategy switches emerge in simple regularised neural networks [8.737068885923348]
単純な人工ニューラルネットワークにおいて、洞察的な振る舞いが生じるかどうかを考察する。ネットワークアーキテクチャと学習力学の分析により、洞察的な振る舞いは規則化されたゲーティング機構に大きく依存していることが判明した。このことは、単純なニューラルネットワークにおける漸進的な学習から、洞察のような振る舞いが自然に生じることを示唆している。
論文参考訳（メタデータ） (2023-02-22T12:48:45Z)
Dynamical Equations With Bottom-up Self-Organizing Properties Learn Accurate Dynamical Hierarchies Without Any Loss Function [15.122944754472435]
本稿では,正負のフィードバックループを持つ非線形ダイナミクスの領域内でパターンが定義される学習システムを提案する。実験により、このようなシステムは時間的から空間的相関をマッピングすることができ、階層構造をシーケンシャルデータから学習することができることが明らかになった。
論文参考訳（メタデータ） (2023-02-04T10:00:14Z)
Towards the Neuroevolution of Low-level Artificial General Intelligence [5.2611228017034435]
我々は、AI(Artificial General Intelligence, AGI)の検索は、人間レベルの知能よりもはるかに低いレベルから始まるべきだと論じる。我々の仮説は、エージェントが環境の中で行動するとき、学習は感覚フィードバックによって起こるというものである。環境反応から学習する生物学的にインスパイアされた人工ニューラルネットワークを進化させる手法を評価する。
論文参考訳（メタデータ） (2022-07-27T15:30:50Z)
Overcoming the Domain Gap in Contrastive Learning of Neural Action Representations [60.47807856873544]
神経科学の基本的な目標は、神経活動と行動の関係を理解することである。我々は,ハエが自然に生み出す行動からなる新しいマルチモーダルデータセットを作成した。このデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。
論文参考訳（メタデータ） (2021-11-29T15:27:51Z)
Backprop-Free Reinforcement Learning with Active Neural Generative Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文参考訳（メタデータ） (2021-07-10T19:02:27Z)
IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文参考訳（メタデータ） (2021-06-23T03:43:10Z)
Thinking Deeply with Recurrence: Generalizing from Easy to Hard Sequential Reasoning Problems [51.132938969015825]
我々は、リカレントネットワークは、非リカレントディープモデルの振る舞いを詳細にエミュレートする能力を有することを観察する。再帰ステップの少ない単純な迷路を解くように訓練された再帰ネットワークは、推論中に追加の繰り返しを実行するだけで、より複雑な問題を解決することができる。
論文参考訳（メタデータ） (2021-02-22T14:09:20Z)
Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文参考訳（メタデータ） (2020-09-10T14:16:58Z)
Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。 ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文参考訳（メタデータ） (2020-07-23T17:59:57Z)
Meta-Learning through Hebbian Plasticity in Random Networks [12.433600693422235]
生涯学習と適応性は生物学的エージェントの2つの決定的な側面である。この生物学的メカニズムに着想を得て,シナプス固有のヘビアン学習規則のみを探索する探索法を提案する。完全にランダムな重みから始めると、発見されたヘビーンの規則により、エージェントは動的2Dピクセル環境をナビゲートできる。
論文参考訳（メタデータ） (2020-07-06T14:32:31Z)
Towards Efficient Processing and Learning with Spikes: New Approaches for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文参考訳（メタデータ） (2020-05-02T06:41:20Z)
Uncertainty-based Modulation for Lifelong Learning [1.3334365645271111]
本稿では、Stephen Grossberg氏のAdaptive Resonance Theory(Adaptive Resonance Theory)提案に基づき、ヒト脳の神経調節機構にインスパイアされたアルゴリズムを提案する。具体的には、不確実性の概念に基づいて構築され、継続的な学習を可能にするために一連の神経調節機構を使用している。我々は,環境やエージェントの行動が学習過程を制約し,指導する閉ループ方式でこれらのシステムを開発する上で重要な役割を実証する。
論文参考訳（メタデータ） (2020-01-27T14:34:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。