論文の概要: Cross-Policy Compliance Detection via Question Answering
- arxiv url: http://arxiv.org/abs/2109.03731v1
- Date: Wed, 8 Sep 2021 15:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 17:24:17.632857
- Title: Cross-Policy Compliance Detection via Question Answering
- Title(参考訳): 質問応答によるクロスポリシーコンプライアンス検出
- Authors: Marzieh Saeidi, Majid Yazdani, Andreas Vlachos
- Abstract要約: 本稿では,政策コンプライアンス検出を質問応答に分解することで解決することを提案する。
このアプローチにより,特にクロス政治設定において,精度が向上することが実証された。
ポリシーコンプライアンスが決定できない場合、シナリオから欠落した情報を明示的に特定する。
- 参考スコア(独自算出の注目度): 13.373804837863155
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Policy compliance detection is the task of ensuring that a scenario conforms
to a policy (e.g. a claim is valid according to government rules or a post in
an online platform conforms to community guidelines). This task has been
previously instantiated as a form of textual entailment, which results in poor
accuracy due to the complexity of the policies. In this paper we propose to
address policy compliance detection via decomposing it into question answering,
where questions check whether the conditions stated in the policy apply to the
scenario, and an expression tree combines the answers to obtain the label.
Despite the initial upfront annotation cost, we demonstrate that this approach
results in better accuracy, especially in the cross-policy setup where the
policies during testing are unseen in training. In addition, it allows us to
use existing question answering models pre-trained on existing large datasets.
Finally, it explicitly identifies the information missing from a scenario in
case policy compliance cannot be determined. We conduct our experiments using a
recent dataset consisting of government policies, which we augment with expert
annotations and find that the cost of annotating question answering
decomposition is largely offset by improved inter-annotator agreement and
speed.
- Abstract(参考訳): ポリシーコンプライアンス検出は、シナリオがポリシー(例えば、)に準拠していることを保証するタスクである。
請求は、政府の規則に従って有効であり、オンラインプラットフォームにおける投稿は、コミュニティガイドラインに従っている。)
このタスクは、以前はテキストエンターメントの形式としてインスタンス化されており、ポリシーの複雑さによって精度が低下している。
本稿では,ポリシーに記述された条件がシナリオに適用されているかどうかを問う質問応答に分解することで,ポリシーコンプライアンス検出に対処することを提案する。
初期の事前アノテーションコストにもかかわらず、特にテスト中のポリシーがトレーニング中に見つからないクロスポリシー設定では、このアプローチがより正確であることを示す。
さらに、既存の大規模データセットで事前訓練された既存の質問応答モデルを使用することもできる。
最後に、ポリシーコンプライアンスが決定できない場合にシナリオから欠落した情報を明示的に特定する。
我々は,政府政策からなる最近のデータセットを用いて実験を行い,専門家のアノテーションを付加することで,質問応答分解の注釈コストは,アノテーション間合意と速度の向上によってほぼ相殺されていることを確認した。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Counterfactual Learning with General Data-generating Policies [3.441021278275805]
我々は、コンテキスト帯域設定における完全なサポートと不足したサポートロギングポリシーのクラスのためのOPE手法を開発した。
サンプルサイズが大きくなるにつれて,本手法の予測値が実測値の真の性能に収束することが証明された。
論文 参考訳(メタデータ) (2022-12-04T21:07:46Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - Fast Compliance Checking with General Vocabularies [0.0]
データ保護ポリシーを表すOWL2プロファイルを導入する。
この言語では、企業のデータ利用ポリシーを、データ対象者の同意に従ってチェックすることができる。
IBQ推論を利用して、ポリシー言語と語彙言語の特殊推論を統合します。
論文 参考訳(メタデータ) (2020-01-16T09:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。