論文の概要: RAD: Retrieval High-quality Demonstrations to Enhance Decision-making
- arxiv url: http://arxiv.org/abs/2507.15356v1
- Date: Mon, 21 Jul 2025 08:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.315226
- Title: RAD: Retrieval High-quality Demonstrations to Enhance Decision-making
- Title(参考訳): RAD: 意思決定を促進するための検索可能な高品質なデモ
- Authors: Lu Guo, Yixiang Shan, Zhengbang Zhu, Qifan Liang, Lichang Song, Ting Long, Weinan Zhang, Yi Chang,
- Abstract要約: オフライン強化学習(RL)により、エージェントは固定データセットからポリシーを学ぶことができる。
RLはデータセットの空間性や、準最適軌道と専門家軌道の重なり合いの欠如によって制限されることが多い。
本稿では,非パラメトリック検索と拡散に基づく生成モデルを組み合わせた意思決定のための検索高量子デモ(RAD)を提案する。
- 参考スコア(独自算出の注目度): 23.136426643341462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) enables agents to learn policies from fixed datasets, avoiding costly or unsafe environment interactions. However, its effectiveness is often limited by dataset sparsity and the lack of transition overlap between suboptimal and expert trajectories, which makes long-horizon planning particularly challenging. Prior solutions based on synthetic data augmentation or trajectory stitching often fail to generalize to novel states and rely on heuristic stitching points. To address these challenges, we propose Retrieval High-quAlity Demonstrations (RAD) for decision-making, which combines non-parametric retrieval with diffusion-based generative modeling. RAD dynamically retrieves high-return states from the offline dataset as target states based on state similarity and return estimation, and plans toward them using a condition-guided diffusion model. Such retrieval-guided generation enables flexible trajectory stitching and improves generalization when encountered with underrepresented or out-of-distribution states. Extensive experiments confirm that RAD achieves competitive or superior performance compared to baselines across diverse benchmarks, validating its effectiveness.
- Abstract(参考訳): オフライン強化学習(RL)は、エージェントが固定されたデータセットからポリシーを学習することを可能にする。
しかし、その効果はデータセットの間隔や準最適軌道と専門家軌道の重なり合いの欠如によって制限されることが多く、これは特に長期計画が困難である。
合成データの増大や軌道縫合に基づく以前の解は、しばしば新しい状態への一般化に失敗し、ヒューリスティック縫合点に依存する。
これらの課題に対処するために、非パラメトリック検索と拡散に基づく生成モデルを組み合わせた意思決定のための検索高量子デモ(RAD)を提案する。
RADは、状態類似性と戻り推定に基づいて、ターゲット状態としてオフラインデータセットからハイリターン状態を動的に取得し、条件誘導拡散モデルを用いてそれらに向けて計画する。
このような検索誘導生成により、柔軟な軌道縫合が可能となり、表現不足状態や分布外状態に遭遇した場合の一般化が向上する。
広範な実験により、RADは様々なベンチマークのベースラインと比較して、競争力や優れた性能を達成し、その有効性を検証する。
関連論文リスト
- RealDrive: Retrieval-Augmented Driving with Diffusion Models [42.6467760755688]
学習ベースのプランナーは、データからのニュアンスなインタラクションを推論することを学ぶことによって、人間のような運転行動を生成する。
データ駆動型アプローチは、しばしば稀で安全クリティカルなシナリオと格闘し、生成された軌道に対して限定的な制御性を提供する。
本稿では,RealDriveを提案する。RealDriveは,トレーニングデータセットから最も関連性の高い専門家のデモンストレーションを検索することで,拡散ベースの計画ポリシーを初期化するフレームワークである。
論文 参考訳(メタデータ) (2025-05-30T17:15:03Z) - Adaptive Robust Optimization with Data-Driven Uncertainty for Enhancing Distribution System Resilience [6.325705102716997]
極度の気象現象が電力システムに緊張を与え、純粋な反応の限界を露呈している。
本稿では,積極的なインフラ投資と反応応答を統合した三段階最適化フレームワークを提案する。
実データと合成データの両方に対する実験により,従来の2段階法よりも一貫して優れた結果が得られた。
論文 参考訳(メタデータ) (2025-05-16T18:43:31Z) - iEBAKER: Improved Remote Sensing Image-Text Retrieval Framework via Eliminate Before Align and Keyword Explicit Reasoning [80.44805667907612]
iEBAKERは、弱い相関のサンプルペアをフィルタリングする革新的な戦略である。
SAR(Sort After Reversed Retrieval)戦略の代替として,SAR(Sort After Retrieval)戦略を導入する。
キーワード明示型推論(KER)モジュールを組み込んで、微妙なキー概念の区別による有益な影響を促進する。
論文 参考訳(メタデータ) (2025-04-08T03:40:19Z) - Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。