論文の概要: IGGA: A Dataset of Industrial Guidelines and Policy Statements for Generative AIs
- arxiv url: http://arxiv.org/abs/2501.00959v2
- Date: Fri, 03 Jan 2025 19:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 10:29:40.230581
- Title: IGGA: A Dataset of Industrial Guidelines and Policy Statements for Generative AIs
- Title(参考訳): IGGA - ジェネレーティブAIのための産業ガイドラインと政策文書のデータセット
- Authors: Junfeng Jiao, Saleh Afroogh, Kevin Chen, David Atkinson, Amit Dhurandhar,
- Abstract要約: 本稿では,GAI(Generative AIs)とLLM(Large Language Models)を産業や職場で使用するための,160の産業ガイドラインと政策ステートメントのデータセットであるIGGAを紹介する。
データセットには104,565語が含まれており、要求工学に一般的に適用される自然言語処理タスクの貴重なリソースとして機能している。
- 参考スコア(独自算出の注目度): 8.420666056013685
- License:
- Abstract: This paper introduces IGGA, a dataset of 160 industry guidelines and policy statements for the use of Generative AIs (GAIs) and Large Language Models (LLMs) in industry and workplace settings, collected from official company websites, and trustworthy news sources. The dataset contains 104,565 words and serves as a valuable resource for natural language processing tasks commonly applied in requirements engineering, such as model synthesis, abstraction identification, and document structure assessment. Additionally, IGGA can be further annotated to function as a benchmark for various tasks, including ambiguity detection, requirements categorization, and the identification of equivalent requirements. Our methodologically rigorous approach ensured a thorough examination, with a selection of reputable and influential companies that represent a diverse range of global institutions across six continents. The dataset captures perspectives from fourteen industry sectors, including technology, finance, and both public and private institutions, offering a broad spectrum of insights into the integration of GAIs and LLMs in industry.
- Abstract(参考訳): 本稿では,GAI(Generative AIs)とLLM(Large Language Models)を産業や職場で利用するための,160の産業ガイドラインと政策ステートメントのデータセットIGGAを紹介する。
このデータセットには104,565語の単語が含まれており、モデル合成、抽象化識別、文書構造評価などの要求工学に一般的に適用される自然言語処理タスクの貴重なリソースとして機能している。
さらにIGGAは、あいまいさの検出、要件分類、等価な要件の識別など、さまざまなタスクのベンチマークとして機能するように注釈付けすることもできる。
方法論的に厳格なアプローチは、6大陸にまたがる多様なグローバル機関を代表する、信頼できる、影響力のある企業を選定し、徹底的な審査を確実にした。
このデータセットは、テクノロジー、金融、公的機関、民間機関を含む14の業界セクターの視点を捉え、業界におけるGAIとLLMの統合に関する幅広い洞察を提供する。
関連論文リスト
- MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark [20.642661835794975]
産業環境におけるMLLMの評価に特化して設計された新しいベンチマークであるMME-Industryを紹介する。
ベンチマークは21の異なるドメインを含み、1ドメインにつき50の質問と回答のペアが1050である。
ベンチマークの中国語版と英語版の両方を提供し、これらの言語間でMLLMの能力の比較分析を可能にする。
論文 参考訳(メタデータ) (2025-01-28T03:56:17Z) - AGGA: A Dataset of Academic Guidelines for Generative AI and Large Language Models [8.420666056013685]
本稿では,GAI(Generative AI)とLLM(Large Language Models)の学術的利用に関する80のガイドラインをまとめたデータセットであるAGGAを紹介する。
このデータセットには188,674語が含まれており、要求工学に一般的に適用される自然言語処理タスクの貴重なリソースとして機能している。
論文 参考訳(メタデータ) (2025-01-03T19:16:36Z) - Generative AI and LLMs in Industry: A text-mining Analysis and Critical Evaluation of Guidelines and Policy Statements Across Fourteen Industrial Sectors [8.420666056013685]
ジェネレーティブAI(GAI)とLarge Language Models(LLM)の台頭は、産業の景観を変革した。
本研究は、14の産業セクターにおける160のガイドラインと政策ステートメントをテキストベースで分析する。
論文 参考訳(メタデータ) (2025-01-01T21:23:22Z) - Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - Enterprise Benchmarks for Large Language Model Evaluation [10.233863135015797]
本研究は,大規模言語モデル (LLM) 評価に適したベンチマーク戦略を体系的に検討する。
提案された評価フレームワークは、金融サービス、法律、サイバーセキュリティ、気候と持続可能性など、さまざまなエンタープライズドメインから利用可能な25のデータセットを含んでいる。
異なるエンタープライズタスクにわたる13モデルの多種多様なパフォーマンスは、各タスクの特定の要求に基づいて適切なモデルを選択することの重要性を強調します。
論文 参考訳(メタデータ) (2024-10-11T18:19:05Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。
データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。
オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T04:00:30Z) - Advanced Unstructured Data Processing for ESG Reports: A Methodology for
Structured Transformation and Enhanced Analysis [20.038120319271773]
本研究では,ESGレポートを構造化解析可能な形式に変換する革新的な手法を提案する。
提案手法は,高精度なテキストクリーニング,画像からのテキストの適切な識別と抽出,およびこれらのレポート内の表の標準化を実現する。
この研究は、産業生態学と企業持続可能性評価の分野に多大な貢献をしている。
論文 参考訳(メタデータ) (2024-01-04T06:26:59Z) - Universal Segmentation at Arbitrary Granularity with Language Instruction [56.39902660380342]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文 参考訳(メタデータ) (2023-12-04T04:47:48Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。