論文の概要: Vejde: A Framework for Inductive Deep Reinforcement Learning Based on Factor Graph Color Refinement
- arxiv url: http://arxiv.org/abs/2509.09219v1
- Date: Thu, 11 Sep 2025 07:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.277969
- Title: Vejde: A Framework for Inductive Deep Reinforcement Learning Based on Factor Graph Color Refinement
- Title(参考訳): Vejde: 因子グラフのカラーリファインメントに基づくインダクティブな深層強化学習フレームワーク
- Authors: Jakob Nyberg, Pontus Johnson,
- Abstract要約: Vejdeは、データ抽象化、グラフニューラルネットワーク、強化学習を組み合わせて、帰納的ポリシ関数を生成するフレームワークである。
MDP状態はエンティティに関する事実のデータベースとして豊富に表現され、Vejdeは各状態を2部グラフに変換し、ニューラルメッセージパッシングを通じて潜在状態にマップする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present and evaluate Vejde; a framework which combines data abstraction, graph neural networks and reinforcement learning to produce inductive policy functions for decision problems with richly structured states, such as object classes and relations. MDP states are represented as data bases of facts about entities, and Vejde converts each state to a bipartite graph, which is mapped to latent states through neural message passing. The factored representation of both states and actions allows Vejde agents to handle problems of varying size and structure. We tested Vejde agents on eight problem domains defined in RDDL, with ten problem instances each, where policies were trained using both supervised and reinforcement learning. To test policy generalization, we separate problem instances in two sets, one for training and the other solely for testing. Test results on unseen instances for the Vejde agents were compared to MLP agents trained on each problem instance, as well as the online planning algorithm Prost. Our results show that Vejde policies in average generalize to the test instances without a significant loss in score. Additionally, the inductive agents received scores on unseen test instances that on average were close to the instance-specific MLP agents.
- Abstract(参考訳): データ抽象化,グラフニューラルネットワーク,強化学習を組み合わせたフレームワークであるVejdeを,オブジェクトクラスやリレーションシップといったリッチな構造化された状態の意思決定問題に対して,帰納的ポリシ関数を生成するためのフレームワークとして提示し,評価する。
MDP状態はエンティティに関する事実のデータベースとして表現され、Vejdeは各状態を2部グラフに変換し、ニューラルメッセージパッシングを通じて潜在状態にマップする。
状態と行動の両方の因子的表現により、Vejdeエージェントはサイズと構造の違いの問題を処理できる。
RDDLで定義された8つの問題ドメインに対して、Vejdeエージェントを10の問題インスタンスでテストし、教師付き学習と強化学習の両方を用いてポリシーをトレーニングした。
政策の一般化をテストするために、我々は問題インスタンスをトレーニング用とテスト専用に2つのセットに分けます。
Vejdeエージェントの未確認インスタンスに対するテスト結果は、各問題インスタンスでトレーニングされたMLPエージェントと、オンライン計画アルゴリズムであるProstを比較した。
以上の結果から,Vejdeポリシは平均してテストインスタンスに一般化され,スコアが大幅に低下することはなかった。
さらに、インダクティブエージェントは、平均的にインスタンス固有のMLPエージェントに近い未確認テストインスタンスのスコアを受け取った。
関連論文リスト
- ICAS: Detecting Training Data from Autoregressive Image Generative Models [38.1625974271413]
トレーニングデータ検出は、モデルトレーニングにおける不正なデータ使用を識別するための重要なタスクとして登場した。
我々はこの領域に会員推定を適用した最初の研究を行う。
我々の手法は、様々なデータ変換の下で強い堅牢性と一般化を示す。
論文 参考訳(メタデータ) (2025-07-07T14:50:42Z) - Graph Disentangle Causal Model: Enhancing Causal Inference in Networked Observational Data [24.583216292149366]
観察データから個別治療効果(ITE)を推定することは、様々な領域において重要な課題である。
ネットワーク環境でのITT推定を行うために,textitGraph Disentangle Causal Model (GDC) と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T06:30:20Z) - DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors [13.700885996266457]
行動クローニングやオフライン強化学習(RL)を通じて収集されたデータから学習することは、ジェネラリストエージェントをスケールするための強力なレシピである。
オフラインRLエージェントの堅牢性を評価するため,DeepMind Control Visual Benchmark (DMC-VB) をDeepMind Control Suiteで収集した。
そこで,本研究では,事前学習のための表現学習手法を評価するための3つのベンチマークを提案し,最近提案したいくつかの手法の実験を行った。
論文 参考訳(メタデータ) (2024-09-26T23:07:01Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - Con$^{2}$DA: Simplifying Semi-supervised Domain Adaptation by Learning
Consistent and Contrastive Feature Representations [1.2891210250935146]
Con$2$DAは、半教師付き学習の最近の進歩を半教師付きドメイン適応問題に拡張するフレームワークである。
我々のフレームワークは、与えられた入力に対してデータ変換を行うことで、関連するサンプルのペアを生成する。
我々は、異なる損失関数を使用して、関連するデータペアのサンプルの特徴表現間の一貫性を強制します。
論文 参考訳(メタデータ) (2022-04-04T15:05:45Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。