論文の概要: Imitation from Observations with Trajectory-Level Generative Embeddings
- arxiv url: http://arxiv.org/abs/2601.00452v1
- Date: Thu, 01 Jan 2026 19:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.455524
- Title: Imitation from Observations with Trajectory-Level Generative Embeddings
- Title(参考訳): 軌道レベル生成埋め込みによる観測からの模倣
- Authors: Yongtao Qu, Shangzhe Li, Weitong Zhang,
- Abstract要約: 我々は、専門家による実証が不十分で、利用可能なオフラインの準最適データが専門家の行動からかけ離れている観察(LfO)からオフラインの模倣学習を考える。
オフライン軌道データに基づいて訓練された時間拡散モデルの潜時空間におけるエキスパート状態密度を推定することにより、密集した滑らかな代理報酬を構成するオフラインLfOのための軌道レベルの生成的埋め込みであるTGEを提案する。
- 参考スコア(独自算出の注目度): 18.63253047959276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the offline imitation learning from observations (LfO) where the expert demonstrations are scarce and the available offline suboptimal data are far from the expert behavior. Many existing distribution-matching approaches struggle in this regime because they impose strict support constraints and rely on brittle one-step models, making it hard to extract useful signal from imperfect data. To tackle this challenge, we propose TGE, a trajectory-level generative embedding for offline LfO that constructs a dense, smooth surrogate reward by estimating expert state density in the latent space of a temporal diffusion model trained on offline trajectory data. By leveraging the smooth geometry of the learned diffusion embedding, TGE captures long-horizon temporal dynamics and effectively bridges the gap between disjoint supports, ensuring a robust learning signal even when offline data is distributionally distinct from the expert. Empirically, the proposed approach consistently matches or outperforms prior offline LfO methods across a range of D4RL locomotion and manipulation benchmarks.
- Abstract(参考訳): 我々は、専門家による実証が不十分で、利用可能なオフラインの準最適データが専門家の行動からかけ離れている観察(LfO)からオフラインの模倣学習を考える。
既存の分散マッチングアプローチの多くは、厳格なサポート制約を課し、脆弱なワンステップモデルに依存しているため、不完全なデータから有用な信号を抽出することが難しいため、この体制で苦労している。
この課題に対処するために、TGEを提案する。これは、オフライン軌跡データに基づいて訓練された時間拡散モデルの潜時空間におけるエキスパート状態密度を推定することにより、密集した滑らかな代理報酬を構成するオフラインLfOのための軌道レベルの生成埋め込みである。
学習した拡散埋め込みのスムーズな幾何学を利用して、TGEは長い水平時間ダイナミクスをキャプチャし、解離支援のギャップを効果的に橋渡しし、オフラインデータが専門家と分散的に異なる場合でも、堅牢な学習信号を保証する。
実験的に、提案手法は、D4RLのローコモーションと演算ベンチマークの範囲で、従来のオフラインLfOメソッドと一貫して一致または性能を向上する。
関連論文リスト
- Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling [53.61290359948953]
タンジェンシャル増幅誘導(TAG)は、下層の拡散モデルを変更することなく、軌道信号のみで動作する。
この誘導過程を1次テイラー展開を利用して定式化する。
TAGは、最小限の計算加算で拡散サンプリング忠実度を改善する、プラグアンドプレイのアーキテクチャに依存しないモジュールである。
論文 参考訳(メタデータ) (2025-10-06T06:53:29Z) - Just-in-time Episodic Feedback Hinter: Leveraging Offline Knowledge to Improve LLM Agents Adaptation [77.90555621662345]
JEF Hinterは、オフライントレースをコンパクトでコンテキスト対応のヒントに蒸留するエージェントシステムである。
ズーム機構は、長い軌道における決定的なステップを強調し、戦略と落とし穴の両方をキャプチャする。
MiniWoB++、WorkArena-L1、WebArena-Liteの実験は、JSF Hinterが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-05T21:34:42Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning [13.839214658191038]
本稿では,効率的なオフライン政策学習のための構造情報に基づく階層的拡散フレームワークを提案する。
オフライン軌道に埋め込まれた構造情報を解析して拡散階層を適応的に構築する。
SIHDは意思決定性能において最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-26T06:24:06Z) - RAD: Retrieval High-quality Demonstrations to Enhance Decision-making [23.136426643341462]
オフライン強化学習(RL)により、エージェントは固定データセットからポリシーを学ぶことができる。
RLはデータセットの空間性や、準最適軌道と専門家軌道の重なり合いの欠如によって制限されることが多い。
本稿では,非パラメトリック検索と拡散に基づく生成モデルを組み合わせた意思決定のための検索高量子デモ(RAD)を提案する。
論文 参考訳(メタデータ) (2025-07-21T08:08:18Z) - Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps [47.57615889991631]
オフライン強化学習(RL)は、静的データセットから最適なポリシーを学ぶことを目的としている。
本稿では,分布外データに対して頑健なワッサースタイン距離を利用する手法を提案する。
提案手法は,D4RLベンチマークデータセット上で広く使用されている手法と同等あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2025-07-14T22:28:36Z) - Local Manifold Approximation and Projection for Manifold-Aware Diffusion Planning [23.945423041112036]
Local Manifold Approximation and Projection (LoMAP) は、オフラインデータセットから近似した低ランクのサブスペースにガイドされたサンプルを投影するトレーニング不要の手法である。
階層型拡散プランナにLoMAPを組み込むことにより,さらなる性能向上が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-01T07:16:39Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。