論文の概要: GraphAllocBench: A Flexible Benchmark for Preference-Conditioned Multi-Objective Policy Learning
- arxiv url: http://arxiv.org/abs/2601.20753v3
- Date: Tue, 03 Feb 2026 07:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.685467
- Title: GraphAllocBench: A Flexible Benchmark for Preference-Conditioned Multi-Objective Policy Learning
- Title(参考訳): GraphAllocBench: 推奨型多目的政策学習のためのフレキシブルベンチマーク
- Authors: Zhiheng Jiang, Yunzhe Wang, Ryan Marr, Ellen Novoseller, Benjamin T. Files, Volkan Ustun,
- Abstract要約: GraphAllocBenchは、都市管理にインスパイアされたグラフベースのリソース割り当てサンドボックス環境上に構築されたフレキシブルなベンチマークである。
多様な目的関数、様々な好み条件、高次元拡張性を備えた豊富な問題群を提供する。
我々は,GraphAllocBenchが既存のMORLアプローチの限界を明らかにし,グラフニューラルネットワーク(GNN)のようなグラフベースの手法を複雑で高次元のアロケーションタスクで活用する方法を舗装していることを示す。
- 参考スコア(独自算出の注目度): 1.2620680057397393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-Conditioned Policy Learning (PCPL) in Multi-Objective Reinforcement Learning (MORL) aims to approximate diverse Pareto-optimal solutions by conditioning policies on user-specified preferences over objectives. This enables a single model to flexibly adapt to arbitrary trade-offs at run-time by producing a policy on or near the Pareto front. However, existing benchmarks for PCPL are largely restricted to toy tasks and fixed environments, limiting their realism and scalability. To address this gap, we introduce GraphAllocBench, a flexible benchmark built on a novel graph-based resource allocation sandbox environment inspired by city management, which we call CityPlannerEnv. GraphAllocBench provides a rich suite of problems with diverse objective functions, varying preference conditions, and high-dimensional scalability. We also propose two new evaluation metrics -- Proportion of Non-Dominated Solutions (PNDS) and Ordering Score (OS) -- that directly capture preference consistency while complementing the widely used hypervolume metric. Through experiments with Multi-Layer Perceptrons (MLPs) and graph-aware models, we show that GraphAllocBench exposes the limitations of existing MORL approaches and paves the way for using graph-based methods such as Graph Neural Networks (GNNs) in complex, high-dimensional combinatorial allocation tasks. Beyond its predefined problem set, GraphAllocBench enables users to flexibly vary objectives, preferences, and allocation rules, establishing it as a versatile and extensible benchmark for advancing PCPL. Code: https://github.com/jzh001/GraphAllocBench
- Abstract(参考訳): 多目的強化学習(MORL)におけるPCPL(Preference-Conditioned Policy Learning)は、目的よりもユーザが指定した嗜好を条件づけることにより、多様なパレート最適解を近似することを目的としている。
これにより、単一モデルはパレートフロントまたはその近くでポリシーを作成することで、実行時に任意のトレードオフに柔軟に適応することができる。
しかし、PCPLの既存のベンチマークはおもちゃのタスクや固定環境に限られており、現実性とスケーラビリティが制限されている。
このギャップに対処するために、我々は、CityPlannerEnvと呼ばれる都市管理にインスパイアされた新しいグラフベースのリソース割り当てサンドボックス環境上に構築されたフレキシブルなベンチマークであるGraphAllocBenchを紹介します。
GraphAllocBenchは、多様な目的関数、さまざまな好み条件、高次元拡張性を備えた、豊富なスイートを提供する。
また、広く使われているハイパーボリュームメトリックを補完しながら、嗜好整合を直接キャプチャする2つの新しい評価指標、PNDS(Proportion of Non-Dominated Solutions)とOrdining Score(OS)も提案する。
MLP(Multi-Layer Perceptrons)とグラフ認識モデルを用いた実験により,GraphAllocBenchは既存のMORLアプローチの限界を明らかにし,グラフニューラルネットワーク(GNN)などのグラフベースの手法を複雑で高次元の組合せ割り当てタスクで活用する方法を明らかにする。
事前に定義された問題セット以外にも、GraphAllocBenchは、ユーザが柔軟に目的、好み、アロケーションルールを変更できるようにし、PCPLを前進させるための汎用的で拡張可能なベンチマークとして確立する。
コード:https://github.com/jzh001/GraphAllocBench
関連論文リスト
- OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models [57.94189874119267]
マルチエージェントシステム(MAS)は複雑な問題を解決するための強力なパラダイムを提供する。
現在のグラフ学習に基づく設計手法は、しばしば「1対1」のパラダイムに準拠している。
自然言語で記述されたタスクに対して適応的な協調グラフを生成する一対一のフレームワークOFA-TADを提案する。
論文 参考訳(メタデータ) (2026-01-19T12:23:44Z) - Multi-Objective Multi-Agent Path Finding with Lexicographic Cost Preferences [7.18523391773903]
多目的経路探索(MO-MAPF)アルゴリズムは競合のない計画を生成する。
我々は,MO-MAPFをモデル化するためのレキシコグラフィーフレームワークと,アルゴリズムのテクスタイストLexicographic Conflict-Based Search (LCBS)を提案する。
LCBSは優先順位を意識した低レベルの$A*$検索とコンフリクトベースの検索を統合している。
私たちは最適性とスケーラビリティに関する洞察を提供し、LCBSが最大10の目的を持つインスタンスにスケーリングしながら最適なソリューションを計算していることを実証的に示しています。
論文 参考訳(メタデータ) (2025-10-08T17:40:41Z) - GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - Aggregation-aware MLP: An Unsupervised Approach for Graph Message-passing [10.93155007218297]
AMLP"は、アグリゲーション関数を直接作成することから適応アグリゲーションへとパラダイムをシフトする、教師なしのフレームワークである。
提案手法は2つの重要なステップから構成される: まず、高次グルーピング効果を促進するグラフ再構成を利用する。
論文 参考訳(メタデータ) (2025-07-27T04:52:55Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - M3C: A Framework towards Convergent, Flexible, and Unsupervised Learning
of Mixture Graph Matching and Clustering [57.947071423091415]
本稿では,理論収束を保証する学習自由度アルゴリズムであるM3Cを提案する。
我々は、新しいエッジワイド親和性学習と擬似ラベル選択を組み込んだ教師なしモデルUM3Cを開発した。
提案手法は,最先端のグラフマッチングと混合グラフマッチングとクラスタリングの手法を精度と効率の両面で優れている。
論文 参考訳(メタデータ) (2023-10-27T19:40:34Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z) - Graph Contrastive Learning Automated [94.41860307845812]
グラフコントラスト学習(GraphCL)は、有望な表現学習性能とともに登場した。
GraphCLのヒンジがアドホックなデータ拡張に与える影響は、データセット毎に手動で選択する必要がある。
本稿では,グラフデータ上でGraphCLを実行する際に,データ拡張を自動的に,適応的に動的に選択する統合バイレベル最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-10T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。