Fugu-MT 論文翻訳(概要): A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications

論文の概要: A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications

arxiv url: http://arxiv.org/abs/2310.17750v1
Date: Thu, 26 Oct 2023 19:45:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 15:47:52.296241
Title: A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications
Title（参考訳）: 生成型AIアプリケーションにおける応答性AIハームの自動計測フレームワーク
Authors: Ahmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, Mei Chen
Abstract要約: 大規模言語モデル(LLM)のためのAI(RAI)メトリクスの自動計測のためのフレームワークを提案する。 LLMの害を自動測定するための枠組みは,既存の技術的・社会学的専門知識に基づいて構築されている。我々は、このフレームワークを使用して、異なるLLMがRAI関連の原則にどのように違反するかを研究するいくつかのケーススタディを実行します。
参考スコア（独自算出の注目度）: 15.087045120842207
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a framework for the automated measurement of responsible AI (RAI) metrics for large language models (LLMs) and associated products and services. Our framework for automatically measuring harms from LLMs builds on existing technical and sociotechnical expertise and leverages the capabilities of state-of-the-art LLMs, such as GPT-4. We use this framework to run through several case studies investigating how different LLMs may violate a range of RAI-related principles. The framework may be employed alongside domain-specific sociotechnical expertise to create measurements for new harm areas in the future. By implementing this framework, we aim to enable more advanced harm measurement efforts and further the responsible use of LLMs.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)と関連する製品やサービスを対象としたAI(RAI)メトリクスの自動計測のためのフレームワークを提案する。本フレームワークは,既存の技術・社会工学的知識を基盤として,GPT-4 などの最先端の LLM の能力を活用している。我々は、このフレームワークを使用して、異なるLLMがRAI関連の原則にどのように違反するかを研究するいくつかのケーススタディを実行します。この枠組みは、将来新たな害領域の測定を行うために、ドメイン固有の社会技術専門知識と共に用いられる。このフレームワークを実装することで、より高度な調和測定とLCMの責任ある利用の実現を目指している。

関連論文リスト

Rethinking Technology Stack Selection with AI Coding Proficiency [49.617080246389605]
大規模言語モデル(LLM)は今やソフトウェア開発の不可欠な部分です。我々は、LLMが与えられた技術を用いて高品質なコードスニペットを生成することができる、AI符号化能力という概念を提案する。我々は,170のサードパーティ製ライブラリと61のタスクシナリオを対象とした,AI習熟度に関する初の総合的研究を行った。
論文参考訳（メタデータ） (2025-09-14T06:56:47Z)
Using LLMs and Essence to Support Software Practice Adoption [0.3609538870261841]
本研究では,ソフトウェアエンジニアリングプラクティスを管理するための標準および思考フレームワークであるEssenceと,大規模言語モデル(LLM)の統合について検討する。提案システムは、ドメイン固有のタスクにおいて、ベースラインよりも一貫して優れている。
論文参考訳（メタデータ） (2025-08-22T14:59:35Z)
Large Language Models in Code Co-generation for Safe Autonomous Vehicles [2.9412498294532856]
大規模言語モデル(LLM)は、ソフトウェアシステムの一部を実装するプロセスを加速するために用いられる。 LLMは、その性質から、安全関連システムの開発に関する、十分に文書化された一連のリスクを伴っている。 4つの安全関連プログラミングタスクにおける6つの最先端LCMの性能を比較した。我々はこれらのLSMが生み出す最も頻繁な欠陥を質的に分析し、人間のレビュアーを支援するための失敗モードカタログを作成します。
論文参考訳（メタデータ） (2025-05-26T08:18:30Z)
JARVIS: A Multi-Agent Code Assistant for High-Quality EDA Script Generation [3.6946337486060776]
JARVISは、LLM(Large Language Models)とドメインの専門知識を活用して、EDAタスクのための高品質なスクリプトを生成する、新しいマルチエージェントフレームワークである。合成データを用いて訓練されたドメイン固有LLM, 構造検証, ルール強制, コード修正機能, 高度な検索機構のカスタムコンパイラを組み合わせることにより, 本手法は最先端のドメイン固有モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-05-20T23:40:57Z)
Facilitating Trustworthy Human-Agent Collaboration in LLM-based Multi-Agent System oriented Software Engineering [3.8073142980733]
マルチエージェント自律システム(MAS)は、単一の自律エージェントよりも複数のドメインにまたがる課題に対処する上で優れている。ソフトウェア工学(SE)におけるMASに関する最先端の研究は、LMAシステムを構築するための自律エージェントのコアにLLMを統合することに焦点を当てている。主な課題の1つは、人間とLMAシステム間のタスクを信頼できる方法で戦略的に割り当てることである。 RACIベースのフレームワークは、実装ガイドラインとフレームワークのサンプル実装とともに、現在進行中の論文で提案されている。
論文参考訳（メタデータ） (2025-05-07T08:55:15Z)
Creating an LLM-based AI-agent: A high-level methodology towards enhancing LLMs with APIs [0.0]
大規模言語モデル(LLM)は、工学と科学の様々な側面に革命をもたらした。この論文は総合的なガイドとして機能し、アプリケーションプログラミングインタフェース(API)を活用する能力を備えたLLMの強化のための多面的アプローチを解明する。本稿では,Hugging Faceコミュニティの小さなモデルを用いて,携帯端末の機能を活用したオンデバイスアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-12-17T14:14:04Z)
MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文参考訳（メタデータ） (2024-11-26T17:53:44Z)
Gaps Between Research and Practice When Measuring Representational Harms Caused by LLM-Based Systems [88.35461485731162]
本研究は,実践者が表現障害を測定するために,公開されている器具を効果的に使用するのを防ぐための4種類の課題を同定する。我々のゴールは、実践者のニーズに適した表現的害を測定するための機器の開発を進めることである。
論文参考訳（メタデータ） (2024-11-23T22:13:38Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文参考訳（メタデータ） (2024-08-05T14:01:15Z)
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。 WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文参考訳（メタデータ） (2024-07-07T07:15:49Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
Using Large Language Models to Understand Telecom Standards [35.343893798039765]
大きな言語モデル(LLM)は、関連する情報へのより高速なアクセスを提供する。質問応答(QA)アシスタントとして使用される最先端のLCMの性能を評価する。その結果,LLMはテレコム技術文書の信頼できる参照ツールとして利用できることがわかった。
論文参考訳（メタデータ） (2024-04-02T09:54:51Z)
Towards Generating Executable Metamorphic Relations Using Large Language Models [46.26208489175692]
大規模言語モデル(LLM)を用いた要件から実行可能なMRを自動的に抽出する手法を提案する。提案手法の有効性を評価するため,シーメンス・インダストリー・ソフトウェアと共同で質問紙調査を行った。
論文参考訳（メタデータ） (2024-01-30T13:52:47Z)
TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage [28.554981886052953]
大規模言語モデル(LLM)は、様々な現実世界のアプリケーションのための強力なツールとして登場した。 LLMの本質的な生成能力は、その長所にもかかわらず、複雑なタスクを扱うには不十分である。本稿では,LLMベースのAIエージェントに適した構造化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-07T09:22:03Z)
Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文参考訳（メタデータ） (2021-01-11T15:54:48Z)
Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文参考訳（メタデータ） (2020-06-21T17:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。