論文の概要: How to Solve Contextual Goal-Oriented Problems with Offline Datasets?
- arxiv url: http://arxiv.org/abs/2408.07753v1
- Date: Wed, 14 Aug 2024 18:03:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 15:48:53.112497
- Title: How to Solve Contextual Goal-Oriented Problems with Offline Datasets?
- Title(参考訳): オフラインデータセットでコンテキスト目標指向の問題を解決するには?
- Authors: Ying Fan, Jingling Li, Adith Swaminathan, Aditya Modi, Ching-An Cheng,
- Abstract要約: 目的指向データ拡張(CODA)という新しい手法を提案する。
CODAは、コンテキスト目標指向(CGO)問題を解決するために、一般に利用可能なラベル付き軌跡とコンテキスト目標ペアを使用している。
オフラインデータ設定におけるCGO問題を解決するCODAの能力を実証するために,新しい理論的解析を行った。
- 参考スコア(独自算出の注目度): 22.082329776133978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel method, Contextual goal-Oriented Data Augmentation (CODA), which uses commonly available unlabeled trajectories and context-goal pairs to solve Contextual Goal-Oriented (CGO) problems. By carefully constructing an action-augmented MDP that is equivalent to the original MDP, CODA creates a fully labeled transition dataset under training contexts without additional approximation error. We conduct a novel theoretical analysis to demonstrate CODA's capability to solve CGO problems in the offline data setup. Empirical results also showcase the effectiveness of CODA, which outperforms other baseline methods across various context-goal relationships of CGO problem. This approach offers a promising direction to solving CGO problems using offline datasets.
- Abstract(参考訳): 本研究では,コンテキスト目標指向(CGO)問題を解決するために,ラベル付きトラジェクトリとコンテキスト目標ペアを用いた新しいコンテキスト目標指向データ拡張手法(CODA)を提案する。
元のMDPと同等の動作拡張MDPを慎重に構築することにより、CODAは、追加の近似誤差を伴わずに、トレーニングコンテキスト下で完全にラベル付けされた遷移データセットを生成する。
オフラインデータ設定におけるCGO問題を解決するCODAの能力を実証するために,新しい理論的解析を行った。
また,CODAの有効性が実証され,CGO問題における様々な文脈・目標関係において,他のベースライン手法よりも優れていた。
このアプローチは、オフラインデータセットを使用してCGO問題を解決するための有望な方向を提供する。
関連論文リスト
- Unsupervised Domain Adaptation Via Data Pruning [0.0]
非教師なし領域適応(UDA)の観点から問題を考える。
本稿では,UDAのトレーニング例を取り除き,トレーニング分布を対象データと整合させる手法であるAdaPruneを提案する。
UDAの手法として、AdaPruneは関連する技術より優れており、CoRALなどの他のUDAアルゴリズムと相補的であることを示す。
論文 参考訳(メタデータ) (2024-09-18T15:48:59Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Two Trades is not Baffled: Condensing Graph via Crafting Rational Gradient Matching [50.30124426442228]
大規模グラフの学習はグラフ表現学習において顕著な成果を上げてきたが、そのコストと記憶力の増大が懸念されている。
そこで我々は,textbfCraftextbfTing textbfRationatextbf (textbfCTRL) という新しいグラフ手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:49:10Z) - Learning from Sparse Offline Datasets via Conservative Density
Estimation [27.93418377019955]
保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T20:42:15Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Offline Equilibrium Finding [40.08360411502593]
オフラインRLをマルチエージェントまたはマルチプレイヤーゲーム設定に一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークの欠如によって、進捗が妨げられているため、非常に少ない研究がなされている。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習の文脈で広く使われている平衡探索アルゴリズムDeep CFRとPSROの適応である。
論文 参考訳(メタデータ) (2022-07-12T03:41:06Z) - GLAN: A Graph-based Linear Assignment Network [29.788755291070462]
深層グラフネットワークに基づく学習可能な線形代入問題の解法を提案する。
合成データセットによる実験結果から,本手法は最先端のベースラインよりも優れていることがわかった。
また,提案手法を一般的なマルチオブジェクトトラッキング(MOT)フレームワークに組み込んで,エンド・ツー・エンドでトラッカーをトレーニングする。
論文 参考訳(メタデータ) (2022-01-05T13:18:02Z) - Comprehensive Graph-conditional Similarity Preserving Network for
Unsupervised Cross-modal Hashing [97.44152794234405]
教師なしクロスモーダルハッシュ(UCMH)は近年ホットトピックとなっている。
本稿では,dgcpn(deep graph-neighbor coherence preservation network)を考案する。
DGCPNは3種類のデータ類似性を利用して、損失を保存する包括的な類似性を管理する。
論文 参考訳(メタデータ) (2020-12-25T07:40:59Z) - Learning to Optimize Non-Rigid Tracking [54.94145312763044]
我々は、堅牢性を改善し、解法収束を高速化するために学習可能な最適化を採用する。
まず、CNNを通じてエンドツーエンドに学習された深い特徴にアライメントデータ項を統合することにより、追跡対象をアップグレードする。
次に,プレコンディショニング手法と学習手法のギャップを,プレコンディショナを生成するためにトレーニングされたConditionNetを導入することで埋める。
論文 参考訳(メタデータ) (2020-03-27T04:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。