論文の概要: Assessing Language Model Deployment with Risk Cards
- arxiv url: http://arxiv.org/abs/2303.18190v1
- Date: Fri, 31 Mar 2023 16:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 13:18:26.604222
- Title: Assessing Language Model Deployment with Risk Cards
- Title(参考訳): リスクカードによる言語モデルデプロイメントの評価
- Authors: Leon Derczynski, Hannah Rose Kirk, Vidhisha Balachandran, Sachin
Kumar, Yulia Tsvetkov, M. R. Leiser, Saif Mohammad
- Abstract要約: RiskCardsは、言語モデルに関連するリスクに関する構造化されたアセスメントとドキュメントのためのフレームワークである。
それぞれのリスクカードは、危険を示すリスクのルートを明確にし、有害な状態に配置し、プロンプトとアウトプットのペアを例示します。
- 参考スコア(独自算出の注目度): 30.927131991814637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces RiskCards, a framework for structured assessment and
documentation of risks associated with an application of language models. As
with all language, text generated by language models can be harmful, or used to
bring about harm. Automating language generation adds both an element of scale
and also more subtle or emergent undesirable tendencies to the generated text.
Prior work establishes a wide variety of language model harms to many different
actors: existing taxonomies identify categories of harms posed by language
models; benchmarks establish automated tests of these harms; and documentation
standards for models, tasks and datasets encourage transparent reporting.
However, there is no risk-centric framework for documenting the complexity of a
landscape in which some risks are shared across models and contexts, while
others are specific, and where certain conditions may be required for risks to
manifest as harms. RiskCards address this methodological gap by providing a
generic framework for assessing the use of a given language model in a given
scenario. Each RiskCard makes clear the routes for the risk to manifest harm,
their placement in harm taxonomies, and example prompt-output pairs. While
RiskCards are designed to be open-source, dynamic and participatory, we present
a "starter set" of RiskCards taken from a broad literature survey, each of
which details a concrete risk presentation. Language model RiskCards initiate a
community knowledge base which permits the mapping of risks and harms to a
specific model or its application scenario, ultimately contributing to a
better, safer and shared understanding of the risk landscape.
- Abstract(参考訳): 本稿では,言語モデルの適用に関連するリスクの構造化評価と文書化のためのフレームワークであるriskcardsを紹介する。
すべての言語と同様に、言語モデルによって生成されたテキストは有害になり得る。
言語生成の自動化は、スケールの要素と、生成したテキストに対してより微妙で、あるいは好ましくない傾向の両方を追加する。
既存の分類群は、言語モデルによって引き起こされる害のカテゴリを識別する;ベンチマークは、これらの害の自動テストを確立する;そして、モデル、タスク、データセットのドキュメント標準は、透過的な報告を促進する。
しかしながら、いくつかのリスクがモデルやコンテキスト間で共有される環境の複雑さを文書化するためのリスク中心のフレームワークは存在しません。
riskcardsは、与えられたシナリオで与えられた言語モデルの使用を評価するための汎用フレームワークを提供することで、この方法論上のギャップに対処する。
各リスクカードは、リスクを顕示するルート、損害分類の配置、即席アウトプットペアの例を明確化する。
リスクカードはオープンソース,ダイナミック,参加型として設計されているが,我々は,広範な文献調査から得られたリスクカードの「出発セット」を提示する。
言語モデル リスクカードは、特定のモデルやアプリケーションシナリオへのリスクや害のマッピングを可能にするコミュニティの知識ベースを開始し、最終的には、より良く、より安全で共有されたリスクランドスケープの理解に寄与します。
関連論文リスト
- A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language
Models [59.706532872634874]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - Unveiling Safety Vulnerabilities of Large Language Models [4.562678399685183]
本稿では,AttaQと呼ばれる質問の形で,敵対的な事例を含むユニークなデータセットを提案する。
各種モデルの脆弱性を解析することにより,データセットの有効性を評価する。
脆弱なセマンティック領域を特定し命名するための新しい自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-07T16:50:33Z) - Improved Membership Inference Attacks Against Language Classification
Models [0.0]
分類モデルに対するメンバシップ推論攻撃を実行するための新しいフレームワークを提案する。
本手法は,単一攻撃モデルやクラスラベル毎の攻撃モデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2023-10-11T06:09:48Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Typology of Risks of Generative Text-to-Image Models [1.933681537640272]
本稿では,DALL-EやMidjourneyといった現代テキスト・画像生成モデルにかかわる直接的なリスクと害について検討する。
これらのリスクの理解と治療に関する知識のギャップは,すでに解決されているものの,我々のレビューでは明らかである。
データバイアスから悪意のある使用まで、22の異なるリスクタイプを特定します。
論文 参考訳(メタデータ) (2023-07-08T20:33:30Z) - TASRA: a Taxonomy and Analysis of Societal-Scale Risks from AI [11.240642213359267]
多くの抜本的な分類が可能であり、特に新しいリスクや安全性への実践的なアプローチを明らかにする場合、有用であるものもある。
本稿では,リスクに繋がる行動,アクターは一体化されているか,意図的かという,説明責任に基づく分類について考察する。
また、AIシステムの予期せぬ相互作用から生じるリスクや、意図的に悪用されるリスクなど、さまざまなリスクタイプがどのように機能するかを説明する物語も提供しています。
論文 参考訳(メタデータ) (2023-06-12T07:55:18Z) - Measuring Re-identification Risk [72.6715574626418]
コンパクトなユーザ表現における再識別リスクを測定するための新しい理論的枠組みを提案する。
我々のフレームワークは、攻撃者がその表現からユーザのアイデンティティを取得できる確率を正式に制限します。
当社のフレームワークが、関心に基づく広告のためのChromeのトピックAPIのような、重要な現実世界のアプリケーションをモデル化するのに十分な一般性を示している。
論文 参考訳(メタデータ) (2023-04-12T16:27:36Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。