Fugu-MT 論文翻訳(概要): Feudal Graph Reinforcement Learning

論文の概要: Feudal Graph Reinforcement Learning

arxiv url: http://arxiv.org/abs/2304.05099v3
Date: Fri, 16 Feb 2024 08:47:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 21:07:02.101575
Title: Feudal Graph Reinforcement Learning
Title（参考訳）: 封建グラフ強化学習
Authors: Tommaso Marzi, Arshjot Khehra, Andrea Cini, Cesare Alippi
Abstract要約: Feudal Graph Reinforcement Learning (FGRL)は、階層化されたグラフ構造を通じて上位から上位のコマンドが伝播するポリシーの階層を定義する。提案手法をMuJoCo環境のベンチマークで評価し,FGRLが関連するベースラインと良好に比較可能であることを示す。
参考スコア（独自算出の注目度）: 19.739901034066587
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graph-based representations and weight-sharing modular policies constitute prominent approaches to tackling composable control problems in Reinforcement Learning (RL). However, as shown by recent graph deep learning literature, message-passing operators can create bottlenecks in information propagation and hinder global coordination. The issue becomes dramatic in tasks where high-level planning is needed. In this work, we propose a novel methodology, named Feudal Graph Reinforcement Learning (FGRL), that addresses such challenges by relying on hierarchical RL and a pyramidal message-passing architecture. In particular, FGRL defines a hierarchy of policies where high-level commands are propagated from the top of the hierarchy down through a layered graph structure. The bottom layers mimic the morphology of the physical system, while the upper layers capture more abstract sub-modules. The resulting agents are then characterized by a committee of policies where actions at a certain level set goals for the level below, thus implementing a hierarchical decision-making structure that encompasses task decomposition. We evaluate the proposed framework on locomotion tasks on benchmark MuJoCo environments and show that FGRL compares favorably against relevant baselines. Furthermore, an in-depth analysis of the command propagation mechanism provides evidence that the introduced message-passing scheme favors the learning of hierarchical decision-making policies.
Abstract（参考訳）: グラフベースの表現と重み付けモジュールポリシーは、強化学習(RL)における構成可能な制御問題に対処するための顕著なアプローチである。しかし、最近のグラフ深層学習文献で示されているように、メッセージパッシング演算子は情報伝達のボトルネックを生じさせ、グローバルな調整を妨げる。ハイレベルな計画が必要なタスクでは、この問題は劇的になります。本研究では,階層的RLとピラミッド型メッセージパッシングアーキテクチャに頼って,このような課題に対処する新しい手法であるFeudal Graph Reinforcement Learning (FGRL)を提案する。特に、fgrlは、階層の上部から階層化されたグラフ構造を通じてハイレベルなコマンドが伝播するポリシーの階層を定義する。下層は物理系の形態を模倣し、上層はより抽象的なサブモジュールをキャプチャする。結果として得られたエージェントは、あるレベルのアクションが以下のレベルの目標を設定するポリシー委員会によって特徴づけられ、タスクの分解を包含する階層的な意思決定構造を実装する。提案手法をベンチマークmujoco環境上で評価し,fgrlが関連するベースラインと好適に比較できることを示す。さらに、コマンド伝搬機構の詳細な分析により、メッセージパッシング方式が階層的な意思決定方針の学習に有利であることを示す。

関連論文リスト

HiMAC: Hierarchical Macro-Micro Learning for Long-Horizon LLM Agents [19.63866851076813]
HiMACは階層的なエージェントRLフレームワークで、長期の意思決定をマクロレベルの計画とマイクロレベルの実行に分解する。その結果,モデルスケールを単独で増やすのではなく,構造的階層を導入することが,堅牢な長期エージェントインテリジェンスを実現する上で重要な要素であることが示唆された。
論文参考訳（メタデータ） (2026-03-01T08:09:03Z)
Minimizing Hyperbolic Embedding Distortion with LLM-Guided Hierarchy Restructuring [19.895748346987435]
双曲埋め込みの品質は入力階層の構造と密接に結合する。本稿では,Large Language Models (LLM) が,これらの基準を満たすために階層を自動的に再構築できるかどうかを検討する。 16の多様な階層の実験は、LLM再構成階層が常に高品質な双曲的埋め込みをもたらすことを示している。
論文参考訳（メタデータ） (2025-11-16T18:10:20Z)
G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge [88.82814893945077]
大規模言語モデル(LLM)は複雑な推論において優れているが、静的かつ不完全なパラメトリック知識によって制限される。最近のグラフ強化RAG (GraphRAG) は、このギャップを補足したグラフを構築し、LLMがそれらを推論できるようにする。 G-reasonerは、様々なグラフ構造化知識を推論するためにグラフと言語基盤モデルを統合した統合フレームワークである。
論文参考訳（メタデータ） (2025-09-29T04:38:12Z)
GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文参考訳（メタデータ） (2025-09-20T02:38:00Z)
Hierarchical Message-Passing Policies for Multi-Agent Reinforcement Learning [19.739901034066587]
本稿では,メッセージパスポリシーのマルチエージェント階層を学習するための,新しい効果的な手法を提案する。階層内の下位レベルのエージェントは、上位レベルから目標を受け取り、隣のエージェントとメッセージを同じレベルで交換する。関連ベンチマークの結果から,本手法は最先端技術と比較して好適な性能を示した。
論文参考訳（メタデータ） (2025-07-31T14:42:12Z)
GLANCE: Graph Logic Attention Network with Cluster Enhancement for Heterophilous Graph Representation Learning [54.60090631330295]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習する上で大きな成功を収めている。本稿では,論理誘導推論,動的グラフ改善,適応クラスタリングを統合し,グラフ表現学習を強化する新しいフレームワークであるGLANCEを提案する。
論文参考訳（メタデータ） (2025-07-24T15:45:26Z)
Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。 KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文参考訳（メタデータ） (2025-06-11T12:03:52Z)
Solving Sokoban using Hierarchical Reinforcement Learning with Landmarks [0.0]
本稿では,パズルゲーム「ソコバン」に適用した新しい階層型強化学習フレームワークを提案する。提案手法は6段階のポリシー階層を構築し,各上位のポリシーが下位のレベルに対してサブゴールを生成する。すべてのサブゴールとポリシーは、ドメインの知識なしに、ゼロからエンドツーエンドに学習されます。
論文参考訳（メタデータ） (2025-04-06T05:30:21Z)
Offline Hierarchical Reinforcement Learning via Inverse Optimization [23.664330010602708]
OHIOは、階層的ポリシーのオフライン強化学習のためのフレームワークである。エンド・ツー・エンドのRL法を大幅に上回り、ロバスト性を向上させる。
論文参考訳（メタデータ） (2024-10-10T14:00:21Z)
Language Models are Graph Learners [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。本稿では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文参考訳（メタデータ） (2024-10-03T08:27:54Z)
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文参考訳（メタデータ） (2024-09-11T17:01:06Z)
Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文参考訳（メタデータ） (2024-09-09T12:56:02Z)
Temporal Abstraction in Reinforcement Learning with Offline Data [8.370420807869321]
本稿では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。我々は,Gym MuJoCo環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。
論文参考訳（メタデータ） (2024-07-21T18:10:31Z)
Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。本稿では,課題計画のためのグラフ学習に基づく手法について検討する。我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文参考訳（メタデータ） (2024-05-29T14:26:24Z)
Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文参考訳（メタデータ） (2024-03-16T08:30:55Z)
Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文参考訳（メタデータ） (2023-03-20T14:51:10Z)
Towards Unsupervised Deep Graph Structure Learning [67.58720734177325]
本稿では,学習したグラフトポロジを外部ガイダンスなしでデータ自身で最適化する,教師なしグラフ構造学習パラダイムを提案する。具体的には、元のデータから"アンカーグラフ"として学習目標を生成し、対照的な損失を用いてアンカーグラフと学習グラフとの一致を最大化する。
論文参考訳（メタデータ） (2022-01-17T11:57:29Z)
Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文参考訳（メタデータ） (2021-06-25T22:54:28Z)
Multi-Level Attention Pooling for Graph Neural Networks: Unifying Graph Representations with Multiple Localities [4.142375560633827]
グラフニューラルネットワーク(GNN)は、グラフ構造データのベクトル表現を学ぶために広く使用されている。潜在的な原因は、深いGNNモデルは、多くのメッセージ通過ステップを通じてノードのローカル情報を失う傾向にある。このいわゆる過度な問題を解くために,マルチレベルアテンションプールアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-03-02T05:58:12Z)
Learning Functionally Decomposed Hierarchies for Continuous Control Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文参考訳（メタデータ） (2020-02-14T10:19:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。