論文の概要: A Framework for Automated Measurement of Responsible AI Harms in
Generative AI Applications
- arxiv url: http://arxiv.org/abs/2310.17750v1
- Date: Thu, 26 Oct 2023 19:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:47:52.296241
- Title: A Framework for Automated Measurement of Responsible AI Harms in
Generative AI Applications
- Title(参考訳): 生成型AIアプリケーションにおける応答性AIハームの自動計測フレームワーク
- Authors: Ahmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla,
Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang
Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird,
Mei Chen
- Abstract要約: 大規模言語モデル(LLM)のためのAI(RAI)メトリクスの自動計測のためのフレームワークを提案する。
LLMの害を自動測定するための枠組みは,既存の技術的・社会学的専門知識に基づいて構築されている。
我々は、このフレームワークを使用して、異なるLLMがRAI関連の原則にどのように違反するかを研究するいくつかのケーススタディを実行します。
- 参考スコア(独自算出の注目度): 15.087045120842207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for the automated measurement of responsible AI (RAI)
metrics for large language models (LLMs) and associated products and services.
Our framework for automatically measuring harms from LLMs builds on existing
technical and sociotechnical expertise and leverages the capabilities of
state-of-the-art LLMs, such as GPT-4. We use this framework to run through
several case studies investigating how different LLMs may violate a range of
RAI-related principles. The framework may be employed alongside domain-specific
sociotechnical expertise to create measurements for new harm areas in the
future. By implementing this framework, we aim to enable more advanced harm
measurement efforts and further the responsible use of LLMs.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)と関連する製品やサービスを対象としたAI(RAI)メトリクスの自動計測のためのフレームワークを提案する。
本フレームワークは,既存の技術・社会工学的知識を基盤として,GPT-4 などの最先端の LLM の能力を活用している。
我々は、このフレームワークを使用して、異なるLLMがRAI関連の原則にどのように違反するかを研究するいくつかのケーススタディを実行します。
この枠組みは、将来新たな害領域の測定を行うために、ドメイン固有の社会技術専門知識と共に用いられる。
このフレームワークを実装することで、より高度な調和測定とLCMの責任ある利用の実現を目指している。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems [88.35461485731162]
本研究は,実践者が表現障害を測定するために,公開されている器具を効果的に使用するのを防ぐための4種類の課題を同定する。
我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を進めることである。
論文 参考訳(メタデータ) (2024-11-23T22:13:38Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (2024-08-05T14:01:15Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Using Large Language Models to Understand Telecom Standards [35.343893798039765]
大きな言語モデル(LLM)は、関連する情報へのより高速なアクセスを提供する。
質問応答(QA)アシスタントとして使用される最先端のLCMの性能を評価する。
その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用できることがわかった。
論文 参考訳(メタデータ) (2024-04-02T09:54:51Z) - Towards Generating Executable Metamorphic Relations Using Large Language Models [46.26208489175692]
大規模言語モデル(LLM)を用いた要件から実行可能なMRを自動的に抽出する手法を提案する。
提案手法の有効性を評価するため,シーメンス・インダストリー・ソフトウェアと共同で質問紙調査を行った。
論文 参考訳(メタデータ) (2024-01-30T13:52:47Z) - TPTU: Large Language Model-based AI Agents for Task Planning and Tool
Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。
LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。
本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T09:22:03Z) - Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。
私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。
当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文 参考訳(メタデータ) (2021-01-11T15:54:48Z) - Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。
エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。
我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-21T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。