論文の概要: Slow Feature Analysis on Markov Chains from Goal-Directed Behavior
- arxiv url: http://arxiv.org/abs/2506.01145v1
- Date: Sun, 01 Jun 2025 19:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.951043
- Title: Slow Feature Analysis on Markov Chains from Goal-Directed Behavior
- Title(参考訳): ゴール指向行動からのマルコフ鎖のスロー特徴解析
- Authors: Merlin Schüler, Eddie Seabrook, Laurenz Wiskott,
- Abstract要約: 本研究では,ゴール指向行動が理想化環境での値関数近似に及ぼす影響について検討する。
有害なスケーリング効果を軽減できる3つの補正経路を評価し,検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slow Feature Analysis is a unsupervised representation learning method that extracts slowly varying features from temporal data and can be used as a basis for subsequent reinforcement learning. Often, the behavior that generates the data on which the representation is learned is assumed to be a uniform random walk. Less research has focused on using samples generated by goal-directed behavior, as commonly the case in a reinforcement learning setting, to learn a representation. In a spatial setting, goal-directed behavior typically leads to significant differences in state occupancy between states that are close to a reward location and far from a reward location. Through the perspective of optimal slow features on ergodic Markov chains, this work investigates the effects of these differences on value-function approximation in an idealized setting. Furthermore, three correction routes, which can potentially alleviate detrimental scaling effects, are evaluated and discussed. In addition, the special case of goal-averse behavior is considered.
- Abstract(参考訳): Slow Feature Analysisは、時間的データからゆっくりと変化する特徴を抽出し、その後の強化学習の基礎として使用できる教師なしの表現学習手法である。
しばしば、表現が学習されるデータを生成する行動は、一様ランダムウォークであると仮定される。
より少ない研究は、目標指向の行動によって生成されたサンプルを使用することに重点を置いており、通常、強化学習環境では表現を学ぶのが一般的である。
空間的な環境では、ゴール指向の行動は、通常、報酬の場所に近い状態と報酬の場所から遠く離れた状態の間で、州の占有率に大きな違いをもたらす。
エルゴード型マルコフ連鎖の最適遅い特徴の観点から、理想化された環境での値関数近似に対するこれらの差の影響を考察する。
さらに, 有害なスケーリング効果を軽減できる3つの補正経路の評価と検討を行った。
また、ゴール・アバース行動の特別な場合も考慮する。
関連論文リスト
- Spatial regularisation for improved accuracy and interpretability in keypoint-based registration [5.286949071316761]
教師なしキーポイント検出に基づく最近のアプローチは、解釈可能性に非常に有望である。
本稿では,特徴量の空間分布を正規化するための3倍の損失を提案する。
我々の損失は特徴の解釈可能性を大幅に改善し、現在では正確で解剖学的に意味のあるランドマークに対応しています。
論文 参考訳(メタデータ) (2025-03-06T14:48:25Z) - Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Improving Estimation of the Koopman Operator with Kolmogorov-Smirnov
Indicator Functions [0.0]
このアプローチの実践的な成功の鍵は、緩やかな緩和モードを拡張するための良い基礎となる観測可能なものの集合を同定することである。
本稿では,スローモードのよい基礎となる観測可能なものを推測する,シンプルで効率的なクラスタリング手法を提案する。
我々は、推定指標関数がクープマン作用素の主固有値の推定を大幅に改善できることを一貫して証明する。
論文 参考訳(メタデータ) (2023-06-09T15:01:43Z) - How Does Data Freshness Affect Real-time Supervised Learning? [15.950108699395077]
実時間教師付き学習の性能は,特徴が陳腐化するにつれて単調に低下することを示す。
実時間における推論誤差を最小限に抑えるため,提案手法を新たに提案する。
提案したスケジューリングアルゴリズムの利点を説明するために,データ駆動型評価法を提案する。
論文 参考訳(メタデータ) (2022-08-15T00:14:13Z) - Locality-aware Attention Network with Discriminative Dynamics Learning
for Weakly Supervised Anomaly Detection [0.8883733362171035]
本稿では,2つの目的関数,すなわち動的ランク付け損失と動的アライメント損失の識別的ダイナミクス学習(DDL)手法を提案する。
局所性認識型注意ネットワーク(LA-Net)は,大域的相関を捉え,スニペット間の位置選好を補正するために構築され,その後,因果畳み込みを伴う多層パーセプトロンにより異常スコアを得る。
論文 参考訳(メタデータ) (2022-08-11T04:27:33Z) - Interpretable Deep Feature Propagation for Early Action Recognition [39.966828592322315]
本研究では,空間的特徴空間における行動パターンの時間的変化を解明し,行動予測に対処する。
我々は、空間的レイアウトを維持しながら、生データからの抽象化を可能にする中間層ConvNet機能で作業する。
我々はKalmanフィルタを用いてエラーのビルドと予測開始時刻の統一に対処する。
論文 参考訳(メタデータ) (2021-07-11T19:40:19Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。