論文の概要: Using Foundation Models to Detect Policy Violations with Minimal
Supervision
- arxiv url: http://arxiv.org/abs/2306.06234v1
- Date: Fri, 9 Jun 2023 20:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:21:52.778642
- Title: Using Foundation Models to Detect Policy Violations with Minimal
Supervision
- Title(参考訳): 基本モデルを用いた極小スーパービジョンによる政策違反の検出
- Authors: Sid Mittal, Vineet Gupta, Frederick Liu, Mukund Sundararajan
- Abstract要約: 我々は、政策違反を検出するために基礎モデルの能力を活用しようとしている。
ソフト・プロンプト・チューニングによるハード・プロンプトを構成し,極めて少ない監督で高精度な分類器を生成する。
基礎モデルのいくつかの直観的側面を同定する。
- 参考スコア(独自算出の注目度): 15.599296461516982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models, i.e. large neural networks pre-trained on large text
corpora, have revolutionized NLP. They can be instructed directly (e.g.
(arXiv:2005.14165)) - this is called hard prompting - and they can be tuned
using very little data (e.g. (arXiv:2104.08691)) - this technique is called
soft prompting. We seek to leverage their capabilities to detect policy
violations. Our contributions are: We identify a hard prompt that adapts
chain-of-thought prompting to policy violation tasks. This prompt produces
policy violation classifications, along with extractive explanations that
justify the classification. We compose the hard-prompts with soft prompt tuning
to produce a classifier that attains high accuracy with very little
supervision; the same classifier also produces explanations. Though the
supervision only acts on the classifications, we find that the modified
explanations remain consistent with the (tuned) model's response. Along the
way, we identify several unintuitive aspects of foundation models. For
instance, adding an example from a specific class can actually reduce
predictions of that class, and separately, the effects of tokenization on
scoring etc. Based on our technical results, we identify a simple workflow for
product teams to quickly develop effective policy violation detectors.
- Abstract(参考訳): 基礎モデル、すなわち、大きなテキストコーパスで事前訓練された大きなニューラルネットワークは、NLPに革命をもたらした。
直接指示できる(例:arXiv:2005.14165) - これはハードプロンプトと呼ばれ、非常に小さなデータ(例:arXiv:2104.08691)で調整できる - このテクニックはソフトプロンプトと呼ばれる。
我々はその能力を活用して、政策違反を検出することを目指している。
私たちは、ポリシー違反タスクにチェーン・オブ・マインド(chain-of-thought)プロンプトを適用するハードプロンプトを特定します。
このプロンプトは、その分類を正当化する抽出的説明とともに、ポリシー違反の分類を生成する。
ソフト・プロンプト・チューニングによるハード・プロンプトを構成することで、極めて少ない監督で高精度な分類器を生成する。
監督は分類にのみ作用するが、修正された説明は(調整された)モデルの応答と一致している。
その過程で、基礎モデルのいくつかの直観的側面を同定する。
例えば、特定のクラスから例を追加すると、実際にはそのクラスの予測を減少させます。
技術的結果に基づいて、プロダクトチームが効果的なポリシー違反検出を迅速に開発するための簡単なワークフローを特定します。
関連論文リスト
- Deconstructing In-Context Learning: Understanding Prompts via Corruption [13.37109575313212]
プロンプト全体を4つのコンポーネント(タスク記述、デモインプット、ラベル、インラインインストラクション)に分解する。
分類と生成タスクをカバーする10のデータセットを用いて,1.5Bから70Bのモデルについて検討した。
プロンプト内の繰り返しテキストはモデル性能を向上し、より大きなモデルはプロンプトのセマンティクスに敏感であることがわかった。
論文 参考訳(メタデータ) (2024-04-02T15:50:55Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Generative Prompt Tuning for Relation Classification [21.027631157115135]
本稿では,関係分類を埋め込み問題として再構成する新しい生成的プロンプトチューニング手法を提案する。
さらに,エンティティ誘導型復号化と識別的関係スコアリングを設計し,推論中の関係を効果的かつ効率的に生成・調整する。
論文 参考訳(メタデータ) (2022-10-22T12:40:23Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Learning to Detect Instance-level Salient Objects Using Complementary
Image Labels [55.049347205603304]
本報告では,本問題に対する第1の弱教師付きアプローチを提案する。
本稿では,候補対象の特定にクラス整合性情報を活用するSaliency Detection Branch,オブジェクト境界をデライン化するためにクラス整合性情報を利用するBundary Detection Branch,サブティナイズ情報を用いたCentroid Detection Branchを提案する。
論文 参考訳(メタデータ) (2021-11-19T10:15:22Z) - Label-Descriptive Patterns and their Application to Characterizing
Classification Errors [31.272875287136426]
最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。
これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。
本稿では,予測の正しさに応じて分割された入力データを簡潔に記述するパターンの小さなセットをマイニングすることにより,任意の分類器に対して,任意の分類を行うことができる手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T19:42:21Z) - PTR: Prompt Tuning with Rules for Text Classification [64.1655047016891]
微調整された事前学習言語モデル(PLM)は、ほぼすべてのNLPタスクで素晴らしいパフォーマンスを実現している。
我々は,多クラステキスト分類のためのルール(PTR)による即時チューニングを提案する。
PTRは、各クラスの事前知識を即時チューニングにエンコードすることができる。
論文 参考訳(メタデータ) (2021-05-24T13:24:02Z) - Revisiting Deep Local Descriptor for Improved Few-Shot Classification [56.74552164206737]
textbfDense textbfClassification と textbfAttentive textbfPooling を利用して埋め込みの質を向上させる方法を示す。
広範に使われているグローバル平均プール (GAP) の代わりに, 注意深いプールを施し, 特徴マップをプールすることを提案する。
論文 参考訳(メタデータ) (2021-03-30T00:48:28Z) - How benign is benign overfitting? [96.07549886487526]
深層ニューラルネットワークにおける敵対的脆弱性の2つの原因について検討する。
ディープニューラルネットワークは基本的にラベルノイズがある場合でも、トレーニングエラーをゼロにする。
我々は、ラベルノイズを敵対的脆弱性の原因の1つとみなしている。
論文 参考訳(メタデータ) (2020-07-08T11:07:10Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。