論文の概要: ODRL Policy Comparison Through Normalisation
- arxiv url: http://arxiv.org/abs/2603.12926v1
- Date: Fri, 13 Mar 2026 12:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.072132
- Title: ODRL Policy Comparison Through Normalisation
- Title(参考訳): 正規化によるODRL政策の比較
- Authors: Jaime Osvaldo Salas, Paolo Pareti, George Konstantinidis,
- Abstract要約: ODRL言語は、デジタル権利のポリシーと規制を表す標準となっている。
その複雑さは、その使用の障壁であり、多くの関連する理論的および実践的な研究がODRLの異なる、相互運用不可能な断片に焦点を合わせている。
我々は、ODRLポリシーのパラメトリックな正規化を最小のコンポーネントに含めるアプローチを提案することで、これらの問題を解決する。
- 参考スコア(独自算出の注目度): 0.07646713951724009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ODRL language has become the standard for representing policies and regulations for digital rights. However its complexity is a barrier to its usage, which has caused many related theoretical and practical works to focus on different, and not interoperable, fragments of ODRL. Moreover, semantically equivalent policies can be expressed in numerous different ways, which makes comparing them and processing them harder. Building on top of a recently defined semantics, we tackle these problems by proposing an approach that involves a parametrised normalisation of ODRL policies into its minimal components which reformulates policies with permissions and prohibitions into policies with permissions exclusively, and simplifies complex logic constraints into simple ones. We provide algorithms to compute a normal form for ODRL policies and simplifying numerical and symbolic constraints. We prove that these algorithms preserve the semantics of policies, and analyse the size complexity of the result, which is exponential on the number of attributes and linear on the number of unique values for these attributes. We show how this makes complex policies representable in more basic fragments of ODRL, and how it reduces the problem of policy comparison to the simpler problem of checking if two rules are identical.
- Abstract(参考訳): ODRL言語は、デジタル権利のポリシーと規制を表す標準となっている。
しかし、その複雑さはその利用の障壁であり、多くの関連する理論的および実践的な研究がODRLの異なる、相互運用不可能な断片に焦点を合わせている。
さらに、意味的に等価なポリシーはさまざまな方法で表現できるため、比較や処理が難しくなる。
最近定義されたセマンティクスに基づいて、我々は、ODRLポリシーのパラメトリ化された正規化を最小限のコンポーネントに含めるアプローチを提案することで、これらの問題に対処する。
我々はODRLポリシーの正規形式を計算し、数値的制約と記号的制約を単純化するアルゴリズムを提供する。
これらのアルゴリズムはポリシーのセマンティクスを保ち、属性数に指数関数的であり、属性のユニークな値数に線形である結果の複雑さを分析する。
本稿は,ODRLのより基本的なフラグメントにおいて,複雑なポリシが表現可能であること,そして2つのルールが同一であるかどうかチェックする簡単な問題と比較して,ポリシーの問題をいかに低減するかを示す。
関連論文リスト
- Learning General Policies with Policy Gradient Methods [11.393603788068775]
特定のドメインの全インスタンスを一般化する証明可能な正しいポリシーは、メソッドを使って学習されている。
この研究の目的は、これらの2つの研究スレッドをまとめて、(深い)強化学習アプローチが利用できる条件を照らすことである。
従来およびディープラーニングアプローチから学んだ教訓を引き合いに出し、それらを便利な方法で拡張します。
論文 参考訳(メタデータ) (2025-12-22T13:08:58Z) - Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。
提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。
本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文 参考訳(メタデータ) (2025-01-20T08:40:15Z) - Explainable Finite-Memory Policies for Partially Observable Markov Decision Processes [1.0499611180329806]
部分観測可能なマルコフ決定プロセス(POMDP)は、不確実性と部分観測可能性の下での意思決定の基本的なフレームワークである。
我々は、(i)解釈可能な形式主義と(ii)典型的にはより小さいサイズの両方において、そのようなポリシーの表現を提供し、より高い説明可能性をもたらす。
論文 参考訳(メタデータ) (2024-11-20T14:42:23Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Preliminary Results on Using Abstract AND-OR Graphs for Generalized
Solving of Stochastic Shortest Path Problems [25.152899734616298]
最短経路問題(SSP)は、現実世界におけるゴール指向の問題である。
SSPの計算における重要な課題は、適度な大きさの問題を難解に解決する方法を見つけることである。
提案手法は任意のSSPソルバに組み込んで階層的最適ポリシーを計算可能であることを示す。
論文 参考訳(メタデータ) (2022-04-08T21:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。