Fugu-MT 論文翻訳(概要): Assessing Language Model Deployment with Risk Cards

論文の概要: Assessing Language Model Deployment with Risk Cards

arxiv url: http://arxiv.org/abs/2303.18190v1
Date: Fri, 31 Mar 2023 16:45:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-03 13:18:26.604222
Title: Assessing Language Model Deployment with Risk Cards
Title（参考訳）: リスクカードによる言語モデルデプロイメントの評価
Authors: Leon Derczynski, Hannah Rose Kirk, Vidhisha Balachandran, Sachin Kumar, Yulia Tsvetkov, M. R. Leiser, Saif Mohammad
Abstract要約: RiskCardsは、言語モデルに関連するリスクに関する構造化されたアセスメントとドキュメントのためのフレームワークである。それぞれのリスクカードは、危険を示すリスクのルートを明確にし、有害な状態に配置し、プロンプトとアウトプットのペアを例示します。
参考スコア（独自算出の注目度）: 30.927131991814637
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces RiskCards, a framework for structured assessment and documentation of risks associated with an application of language models. As with all language, text generated by language models can be harmful, or used to bring about harm. Automating language generation adds both an element of scale and also more subtle or emergent undesirable tendencies to the generated text. Prior work establishes a wide variety of language model harms to many different actors: existing taxonomies identify categories of harms posed by language models; benchmarks establish automated tests of these harms; and documentation standards for models, tasks and datasets encourage transparent reporting. However, there is no risk-centric framework for documenting the complexity of a landscape in which some risks are shared across models and contexts, while others are specific, and where certain conditions may be required for risks to manifest as harms. RiskCards address this methodological gap by providing a generic framework for assessing the use of a given language model in a given scenario. Each RiskCard makes clear the routes for the risk to manifest harm, their placement in harm taxonomies, and example prompt-output pairs. While RiskCards are designed to be open-source, dynamic and participatory, we present a "starter set" of RiskCards taken from a broad literature survey, each of which details a concrete risk presentation. Language model RiskCards initiate a community knowledge base which permits the mapping of risks and harms to a specific model or its application scenario, ultimately contributing to a better, safer and shared understanding of the risk landscape.
Abstract（参考訳）: 本稿では,言語モデルの適用に関連するリスクの構造化評価と文書化のためのフレームワークであるriskcardsを紹介する。すべての言語と同様に、言語モデルによって生成されたテキストは有害になり得る。言語生成の自動化は、スケールの要素と、生成したテキストに対してより微妙で、あるいは好ましくない傾向の両方を追加する。既存の分類群は、言語モデルによって引き起こされる害のカテゴリを識別する;ベンチマークは、これらの害の自動テストを確立する;そして、モデル、タスク、データセットのドキュメント標準は、透過的な報告を促進する。しかしながら、いくつかのリスクがモデルやコンテキスト間で共有される環境の複雑さを文書化するためのリスク中心のフレームワークは存在しません。 riskcardsは、与えられたシナリオで与えられた言語モデルの使用を評価するための汎用フレームワークを提供することで、この方法論上のギャップに対処する。各リスクカードは、リスクを顕示するルート、損害分類の配置、即席アウトプットペアの例を明確化する。リスクカードはオープンソース,ダイナミック,参加型として設計されているが,我々は,広範な文献調査から得られたリスクカードの「出発セット」を提示する。言語モデルリスクカードは、特定のモデルやアプリケーションシナリオへのリスクや害のマッピングを可能にするコミュニティの知識ベースを開始し、最終的には、より良く、より安全で共有されたリスクランドスケープの理解に寄与します。

関連論文リスト

Exploring the Secondary Risks of Large Language Models [17.845215420030467]
良心的衝動時の有害または誤解を招く行動に特徴付けられる二次的リスクを導入する。敵の攻撃とは異なり、これらのリスクは不完全な一般化から生じ、しばしば標準的な安全メカニズムを回避する。本研究では,ブラックボックス型多目的検索フレームワークSecLensを提案する。
論文参考訳（メタデータ） (2025-06-14T07:31:52Z)
Developing a Risk Identification Framework for Foundation Model Uses [7.013133148085937]
特定のファンデーションモデルの使用に関連するリスクを決定する方法について、実践者にとってのガイダンスはほとんどありません。基本モデルでリスクを識別するフレームワークを構築する上での課題を特定し、4つの設計要件を合成するために使用法ガバナンスからアイデアを適用する。
論文参考訳（メタデータ） (2025-06-01T23:37:41Z)
RiskRAG: A Data-Driven Solution for Improved AI Model Risk Reporting [4.375071270418409]
モデルカードのわずか14%がリスクについて言及しており、そのうち96%が小さなカードからコンテンツをコピーしている。 RiskRAGはRetrieval Augmented Generationベースのリスクレポートソリューションで、5つの設計要件がガイドされている。 RiskRAGは450Kのモデルカードと600の現実世界のインシデントから作成され、コンテキスト化されたリスクレポートをプリポレートする。
論文参考訳（メタデータ） (2025-04-11T20:10:15Z)
DODGE: Ontology-Aware Risk Assessment via Object-Oriented Disruption Graphs [0.9387233631570749]
共通オントロジー・オブ・バリュー・アンド・リスク(COVER)は、透明で完全かつ説明可能なリスク評価を実行する上で、オブジェクトとそれらの関係がいかに重要であるかを強調している。我々は、リスクアセスメントのための新しい枠組みであるDODGEを提示することで、COVERが提案する概念のいくつかを運用する。
論文参考訳（メタデータ） (2024-12-18T15:44:04Z)
On the Privacy Risk of In-context Learning [36.633860818454984]
我々は、プロンプトモデルがプロンプト内で使用されるデータに対して、重大なプライバシーリスクを示すことを示した。また、トリガーモデルのプライバシリスクが、同じユーティリティレベルで微調整されたモデルを超えることも観察します。
論文参考訳（メタデータ） (2024-11-15T17:11:42Z)
Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文参考訳（メタデータ） (2024-08-16T17:23:43Z)
Defining and Evaluating Decision and Composite Risk in Language Models Applied to Natural Language Inference [3.422309388045878]
ChatGPTのような大規模言語モデル(LLM)は、重大なリスクをもたらすことが知られている。モデルが推論に持っている過信または過信から、誤った信頼が生じる。本稿では,2段階の推論アーキテクチャと,そのようなリスクを測定するための適切な指標からなる実験フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-04T05:24:32Z)
Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文参考訳（メタデータ） (2024-06-25T10:08:45Z)
C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文参考訳（メタデータ） (2024-02-05T16:46:16Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Typology of Risks of Generative Text-to-Image Models [1.933681537640272]
本稿では,DALL-EやMidjourneyといった現代テキスト・画像生成モデルにかかわる直接的なリスクと害について検討する。これらのリスクの理解と治療に関する知識のギャップは,すでに解決されているものの,我々のレビューでは明らかである。データバイアスから悪意のある使用まで、22の異なるリスクタイプを特定します。
論文参考訳（メタデータ） (2023-07-08T20:33:30Z)
Language Generation Models Can Cause Harm: So What Can We Do About It? An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文参考訳（メタデータ） (2022-10-14T10:43:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。