論文の概要: Automatic Generation of Model and Data Cards: A Step Towards Responsible AI
- arxiv url: http://arxiv.org/abs/2405.06258v1
- Date: Fri, 10 May 2024 06:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:37:41.748147
- Title: Automatic Generation of Model and Data Cards: A Step Towards Responsible AI
- Title(参考訳): モデルとデータカードの自動生成 - 責任あるAIへの一歩-
- Authors: Jiarui Liu, Wenkai Li, Zhijing Jin, Mona Diab,
- Abstract要約: 大規模言語モデル(LLM)を用いた自動生成手法を提案する。
CardBenchは4.8kモデルカードと1.4kデータカードから集約された包括的なデータセットである。
当社のアプローチでは、生成されたモデルとデータカードにおける完全性、客観性、忠実性が向上しています。
- 参考スコア(独自算出の注目度): 23.42842241759459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an era of model and data proliferation in machine learning/AI especially marked by the rapid advancement of open-sourced technologies, there arises a critical need for standardized consistent documentation. Our work addresses the information incompleteness in current human-generated model and data cards. We propose an automated generation approach using Large Language Models (LLMs). Our key contributions include the establishment of CardBench, a comprehensive dataset aggregated from over 4.8k model cards and 1.4k data cards, coupled with the development of the CardGen pipeline comprising a two-step retrieval process. Our approach exhibits enhanced completeness, objectivity, and faithfulness in generated model and data cards, a significant step in responsible AI documentation practices ensuring better accountability and traceability.
- Abstract(参考訳): 機械学習/AIにおけるモデルとデータ拡散の時代、特にオープンソース技術の急速な進歩によって、標準化された一貫したドキュメントにとって重要な必要性が生じている。
我々の研究は、現在の人間生成モデルとデータカードにおける情報不完全性に対処する。
本稿では,Large Language Models (LLM) を用いた自動生成手法を提案する。
主なコントリビューションとしては,4.8kモデルカードと1.4kデータカードから集約した総合的なデータセットであるCardBenchの確立と,2ステップの検索プロセスを含むCardGenパイプラインの開発がある。
当社のアプローチでは、生成されたモデルとデータカードにおける完全性、客観性、忠実性の向上が示されています。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。
また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - A Standardized Machine-readable Dataset Documentation Format for Responsible AI [8.59437843168878]
Croissant-RAIは、AIデータセットの発見性、相互運用性、信頼性を高めるために設計された、機械可読なメタデータフォーマットである。
主要なデータ検索エンジン、リポジトリ、機械学習フレームワークに統合されている。
論文 参考訳(メタデータ) (2024-06-04T16:40:14Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - Unlocking Model Insights: A Dataset for Automated Model Card Generation [4.167070553534516]
25のMLモデルに対して500対の質問応答ペアのデータセットを導入する。
元の論文から回答を抽出するためにアノテーションを使用します。
また,ChatGPT-3.5,LLaMa,Galacticaを用いた実験では,これらのLMによる研究論文の理解に大きなギャップが認められた。
論文 参考訳(メタデータ) (2023-09-22T04:46:11Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - Data Cards: Purposeful and Transparent Dataset Documentation for
Responsible AI [0.0]
我々は、データセットの透明性、目的、人間中心のドキュメンテーションを促進するためのデータカードを提案する。
データカードは、利害関係者が必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。
実世界のユーティリティと人間中心性にデータカードを基盤とするフレームワークを提示する。
論文 参考訳(メタデータ) (2022-04-03T13:49:36Z) - Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and
Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。
コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。
モデル信号認識における最大4.8倍の改善を実現している。
論文 参考訳(メタデータ) (2021-11-10T17:58:18Z) - DAG Card is the new Model Card [0.0]
データ中心の視点の長所を包含する文書の形式としてDAGカードを提案する。
機械学習パイプラインは、多くの実用的なユースケースにおいて最も適切なレベルのドキュメントである、と私たちは主張する。
論文 参考訳(メタデータ) (2021-10-24T20:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。