論文の概要: Probabilistic Recurrent Intention Switching Model
- arxiv url: http://arxiv.org/abs/2605.26998v1
- Date: Tue, 26 May 2026 13:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.181563
- Title: Probabilistic Recurrent Intention Switching Model
- Title(参考訳): 確率的リカレントインテンションスイッチングモデル
- Authors: Wenyuan Sheng, Hao Zhu, Joschka Boedecker,
- Abstract要約: 逆強化学習(IRL)は、観察された行動から報酬関数を回復するが、伝統的な手法では、エピソード内でゴール切替を捉えることができない単一の定常報酬を仮定する。
近年のマルチインテンションIRL法は、トラジェクトリをセグメント化することでこの問題に対処しているが、モデル意図の遷移はメモリレスマルコフ連鎖または固定された履歴ウィンドウによる手動状態拡張のいずれかである。
本稿では,観測履歴をステップごとの意図分布にマッピングする軽量なリカレントネットワークを両機構に置き換える確率的リカレントインテンションスイッチングモデル(PRISM)を提案する。
- 参考スコア(独自算出の注目度): 8.25071593831945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning (IRL) recovers reward functions from observed behavior, yet traditional methods assume a single stationary reward that cannot capture goal switching within an episode. Recent multi-intention IRL methods address this by segmenting trajectories, but model intention transitions as either a memoryless Markov chain or via manual state augmentation with a fixed history window. We propose the Probabilistic Recurrent Intention Switching Model (PRISM), which replaces both mechanisms with a lightweight recurrent network that maps observation history to a per-step intention distribution. We prove that the resulting EM objective decomposes exactly into independent per-intention reward subproblems, each solvable in closed form, yielding an $\mathcal{O}(nK)$ E-step with no variational approximation. We evaluate PRISM on a non-Markovian gridworld, a mouse labyrinth, and BridgeData~V2 robotic manipulation, the first large-scale robotic application of multi-intention IRL. Across all settings PRISM achieves the highest held-out log-likelihood while recovering nameable, temporally coherent intentions from unlabeled demonstrations, suggesting that discrete goal switching is present in both biological and artificial agents.
- Abstract(参考訳): 逆強化学習(IRL)は、観察された行動から報酬関数を回復するが、伝統的な手法では、エピソード内でゴール切替を捉えることができない単一の定常報酬を仮定する。
近年のマルチインテンションIRL法は、トラジェクトリをセグメント化することでこの問題に対処しているが、モデル意図の遷移はメモリレスマルコフ連鎖または固定された履歴ウィンドウによる手動状態拡張のいずれかである。
本稿では,観測履歴をステップごとの意図分布にマッピングする軽量なリカレントネットワークを両機構に置き換える確率的リカレントインテンションスイッチングモデル(PRISM)を提案する。
得られたEMの目的は、独立なインテンション当たりの報酬サブプロブレムに完全に分解され、それぞれが閉じた形で解けることを証明し、変分近似のない$\mathcal{O}(nK)$ E-stepとなる。
我々は,マルチインテンションIRLの大規模ロボット応用として,非マルコフグリッドワールド,マウスラビリンス,ブリッジデータ〜V2ロボット操作を用いたPRISMの評価を行った。
すべての設定において、PRISMは、ラベルなしのデモンストレーションから名前付き時間的に一貫性のある意図を回復しつつ、最も高い保持率のログライクな状態を達成し、生物学的エージェントと人工エージェントの両方に個別のゴール切替が存在することを示唆している。
関連論文リスト
- Action-Inspired Generative Models [0.0]
アクションインスパイアされた生成モデル(AGM)
既往の橋梁整合法が輸送景観の遷移に均一な回帰重みを割り当てるという観察に動機づけられた双対ネットワーク生成フレームワークを導入する。
学習可能なポテンシャルを通して不定形輸送経路を選択的に解析すると、フィデリティとカバレッジのメトリクス間で生成品質が一貫した改善が得られることを実証する。
論文 参考訳(メタデータ) (2026-05-14T09:43:32Z) - World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - How Far Can Unsupervised RLVR Scale LLM Training? [57.44753418846446]
検証可能な報酬を伴う教師なし強化学習(URLVR)は、監督ボトルネックを越えてLLMトレーニングをスケールするための経路を提供する。
最近の研究は、モデル固有の信号を活用し、期待できる早期の利得を示しているが、その可能性と限界は未だ不明である。
我々は、URLVRメソッドを報酬源に基づく固有対外部に分類し、統一された理論的枠組みを確立する。
論文 参考訳(メタデータ) (2026-03-09T17:38:11Z) - Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - On the Feasibility of Hijacking MLLMs' Decision Chain via One Perturbation [22.536817707658816]
単一の摂動は、決定連鎖全体をハイジャックすることができる。
Semantic-Aware Universal Perturbations (SAUP) は入力のセマンティクスに基づいて様々な結果をもたらす。
マルチモーダルな3つの大規模言語モデルの実験は、その脆弱性を実証している。
論文 参考訳(メタデータ) (2025-11-25T07:13:13Z) - Sculpting Latent Spaces With MMD: Disentanglement With Programmable Priors [30.182736043604304]
最大平均離散性(MMD)に基づく手法であるProgrammable Prior Frameworkを導入する。
我々の研究は、表現工学の基礎となるツールを提供し、モデル識別可能性と因果推論のための新しい道を開く。
論文 参考訳(メタデータ) (2025-10-13T21:26:01Z) - Model Checking for Closed-Loop Robot Reactive Planning [0.0]
モデル検査を用いて、ディファレンシャルドライブホイールロボットの多段階計画を作成することにより、即時危険を回避できることを示す。
簡単な生物エージェントのエゴセントリックな反応を反映した,小型で汎用的なモデル検査アルゴリズムを用いて,リアルタイムで計画を生成する。
論文 参考訳(メタデータ) (2023-11-16T11:02:29Z) - Generative Fractional Diffusion Models [53.36835573822926]
我々は,その基礎となる力学に分数拡散過程を利用する,最初の連続時間スコアベース生成モデルを導入する。
実画像データを用いた評価では,GFDMはFIDが低い値で示されるように,画素幅の多様性と画質の向上を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:53:24Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Disentangled Sequence Clustering for Human Intention Inference [40.46123013107865]
Disentangled Sequence Clustering Variational Autoencoder (DiSCVAE)
Disentangled Sequence Clustering Variational Autoencoder (DiSCVAE)
論文 参考訳(メタデータ) (2021-01-23T13:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。