論文の概要: Assessing Language Model Deployment with Risk Cards
- arxiv url: http://arxiv.org/abs/2303.18190v1
- Date: Fri, 31 Mar 2023 16:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 13:18:26.604222
- Title: Assessing Language Model Deployment with Risk Cards
- Title(参考訳): リスクカードによる言語モデルデプロイメントの評価
- Authors: Leon Derczynski, Hannah Rose Kirk, Vidhisha Balachandran, Sachin
Kumar, Yulia Tsvetkov, M. R. Leiser, Saif Mohammad
- Abstract要約: RiskCardsは、言語モデルに関連するリスクに関する構造化されたアセスメントとドキュメントのためのフレームワークである。
それぞれのリスクカードは、危険を示すリスクのルートを明確にし、有害な状態に配置し、プロンプトとアウトプットのペアを例示します。
- 参考スコア(独自算出の注目度): 30.927131991814637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces RiskCards, a framework for structured assessment and
documentation of risks associated with an application of language models. As
with all language, text generated by language models can be harmful, or used to
bring about harm. Automating language generation adds both an element of scale
and also more subtle or emergent undesirable tendencies to the generated text.
Prior work establishes a wide variety of language model harms to many different
actors: existing taxonomies identify categories of harms posed by language
models; benchmarks establish automated tests of these harms; and documentation
standards for models, tasks and datasets encourage transparent reporting.
However, there is no risk-centric framework for documenting the complexity of a
landscape in which some risks are shared across models and contexts, while
others are specific, and where certain conditions may be required for risks to
manifest as harms. RiskCards address this methodological gap by providing a
generic framework for assessing the use of a given language model in a given
scenario. Each RiskCard makes clear the routes for the risk to manifest harm,
their placement in harm taxonomies, and example prompt-output pairs. While
RiskCards are designed to be open-source, dynamic and participatory, we present
a "starter set" of RiskCards taken from a broad literature survey, each of
which details a concrete risk presentation. Language model RiskCards initiate a
community knowledge base which permits the mapping of risks and harms to a
specific model or its application scenario, ultimately contributing to a
better, safer and shared understanding of the risk landscape.
- Abstract(参考訳): 本稿では,言語モデルの適用に関連するリスクの構造化評価と文書化のためのフレームワークであるriskcardsを紹介する。
すべての言語と同様に、言語モデルによって生成されたテキストは有害になり得る。
言語生成の自動化は、スケールの要素と、生成したテキストに対してより微妙で、あるいは好ましくない傾向の両方を追加する。
既存の分類群は、言語モデルによって引き起こされる害のカテゴリを識別する;ベンチマークは、これらの害の自動テストを確立する;そして、モデル、タスク、データセットのドキュメント標準は、透過的な報告を促進する。
しかしながら、いくつかのリスクがモデルやコンテキスト間で共有される環境の複雑さを文書化するためのリスク中心のフレームワークは存在しません。
riskcardsは、与えられたシナリオで与えられた言語モデルの使用を評価するための汎用フレームワークを提供することで、この方法論上のギャップに対処する。
各リスクカードは、リスクを顕示するルート、損害分類の配置、即席アウトプットペアの例を明確化する。
リスクカードはオープンソース,ダイナミック,参加型として設計されているが,我々は,広範な文献調査から得られたリスクカードの「出発セット」を提示する。
言語モデル リスクカードは、特定のモデルやアプリケーションシナリオへのリスクや害のマッピングを可能にするコミュニティの知識ベースを開始し、最終的には、より良く、より安全で共有されたリスクランドスケープの理解に寄与します。
関連論文リスト
- On the Privacy Risk of In-context Learning [36.633860818454984]
我々は、プロンプトモデルがプロンプト内で使用されるデータに対して、重大なプライバシーリスクを示すことを示した。
また、トリガーモデルのプライバシリスクが、同じユーティリティレベルで微調整されたモデルを超えることも観察します。
論文 参考訳(メタデータ) (2024-11-15T17:11:42Z) - Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。
リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文 参考訳(メタデータ) (2024-08-16T17:23:43Z) - Defining and Evaluating Decision and Composite Risk in Language Models Applied to Natural Language Inference [3.422309388045878]
ChatGPTのような大規模言語モデル(LLM)は、重大なリスクをもたらすことが知られている。
モデルが推論に持っている過信または過信から、誤った信頼が生じる。
本稿では,2段階の推論アーキテクチャと,そのようなリスクを測定するための適切な指標からなる実験フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-04T05:24:32Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Typology of Risks of Generative Text-to-Image Models [1.933681537640272]
本稿では,DALL-EやMidjourneyといった現代テキスト・画像生成モデルにかかわる直接的なリスクと害について検討する。
これらのリスクの理解と治療に関する知識のギャップは,すでに解決されているものの,我々のレビューでは明らかである。
データバイアスから悪意のある使用まで、22の異なるリスクタイプを特定します。
論文 参考訳(メタデータ) (2023-07-08T20:33:30Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。