論文の概要: FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for
Large Language Models' Training?
- arxiv url: http://arxiv.org/abs/2401.11033v1
- Date: Fri, 19 Jan 2024 21:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:17:06.653807
- Title: FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for
Large Language Models' Training?
- Title(参考訳): FAIR Enough: 大規模言語モデルのトレーニングにFAIR互換のデータセットをどのように開発し評価するか?
- Authors: Shaina Raza, Shardul Ghuge, Chen Ding, Deval Pandya
- Abstract要約: FAIRデータ原則をLLM(Large Language Models)トレーニングに組み込むフレームワークを紹介します。
このアプローチは、FAIR標準に準拠したプラクティスへのシフトを意味します。
- 参考スコア(独自算出の注目度): 3.424426758686647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in Large Language Models (LLMs) highlight the need for ethical
practices and data integrity. We introduce a framework that embeds FAIR
(Findable, Accessible, Interoperable, Reusable) data principles into LLM
training. This approach marks a shift towards practices compliant with FAIR
standards. Our framework presents guidelines for integrating FAIR data
principles into LLM training. This initiative includes a checklist for
researchers and developers. We also demonstrate its practical application
through a case study focused on bias identification and mitigation in our
FAIR-compliant dataset. This work is a significant contribution to AI ethics
and data science, advocating for balanced and ethical training methods in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、倫理的プラクティスとデータの完全性の必要性を強調している。
LLMトレーニングにFAIR(Findable, Accessible, Interoperable, Reusable)のデータ原則を組み込むフレームワークを導入します。
このアプローチは、FAIR標準に準拠したプラクティスへの移行を示すものだ。
我々のフレームワークは、FAIRデータ原則をLLMトレーニングに統合するためのガイドラインを提示します。
このイニシアチブには、研究者と開発者のためのチェックリストが含まれている。
また,公平に適合したデータセットにおけるバイアス識別と緩和に焦点を当てたケーススタディを通じて,その実践的応用を実証する。
この研究はAI倫理とデータサイエンスに大きな貢献をしており、LLMにおけるバランスのとれた倫理的な訓練方法を提唱している。
関連論文リスト
- A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - A Survey on Knowledge Distillation of Large Language Models [102.84645991075283]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。
本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文 参考訳(メタデータ) (2024-02-20T16:17:37Z) - Rethinking Machine Unlearning for Large Language Models [87.85043572895296]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - A Study on Training and Developing Large Language Models for Behavior
Tree Generation [22.632022793663516]
本稿では,大規模言語モデル(LLM)の適用可能性について,革新的な考察を行う。
本論文の中核となる貢献は,LLMに基づくBT生成フレームワークの設計である。
生成したBTの有効性と実行性を確保するため,データ検証の重要性を強調した。
論文 参考訳(メタデータ) (2024-01-16T03:28:29Z) - Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for
AI Accountability [28.67753149592534]
本研究は,包括的メトリクスカタログへの取り組みを導入することで,説明責任のギャップを埋めるものである。
我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
論文 参考訳(メタデータ) (2023-11-22T04:43:16Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - A Study on the Implementation of Generative AI Services Using an
Enterprise Data-Based LLM Application Architecture [0.0]
本研究では,Large Language Models (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。
この研究は、不十分なデータの問題を軽減するための戦略を練り上げ、カスタマイズされたソリューションを提供している。
この研究の重要な貢献は、検索型拡張世代(RAG)モデルの開発である。
論文 参考訳(メタデータ) (2023-09-03T07:03:17Z) - FAIR for AI: An interdisciplinary and international community building
perspective [19.2239109259925]
FAIRの原則は、適切なデータ管理とスチュワードシップの前提条件として2016年に提案された。
FAIRの原則は、データを生成するソフトウェア、ツール、アルゴリズム、データセットを含むように再解釈または拡張されている。
このレポートは2022年6月7日にアルゴンヌ国立研究所で開催されたFAIR for AIワークショップに基づいている。
論文 参考訳(メタデータ) (2022-09-30T22:05:46Z) - RLOps: Development Life-cycle of Reinforcement Learning Aided Open RAN [4.279828770269723]
この記事では、機械学習(ML)の原則、特にOpen RANスタックに関連する強化学習(RL)を紹介します。
開発ライフサイクルを通じてML/RLモデルが直面する課題を分類する。
モデル仕様,開発・蒸留,生産環境提供,運用監視,安全・セキュリティ,データエンジニアリングプラットフォームなど,RLOPSの基本部分について論じる。
論文 参考訳(メタデータ) (2021-11-12T22:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。