論文の概要: FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for
Large Language Models' Training?
- arxiv url: http://arxiv.org/abs/2401.11033v1
- Date: Fri, 19 Jan 2024 21:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 18:17:06.653807
- Title: FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for
Large Language Models' Training?
- Title(参考訳): FAIR Enough: 大規模言語モデルのトレーニングにFAIR互換のデータセットをどのように開発し評価するか?
- Authors: Shaina Raza, Shardul Ghuge, Chen Ding, Deval Pandya
- Abstract要約: FAIRデータ原則をLLM(Large Language Models)トレーニングに組み込むフレームワークを紹介します。
このアプローチは、FAIR標準に準拠したプラクティスへのシフトを意味します。
- 参考スコア(独自算出の注目度): 3.424426758686647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in Large Language Models (LLMs) highlight the need for ethical
practices and data integrity. We introduce a framework that embeds FAIR
(Findable, Accessible, Interoperable, Reusable) data principles into LLM
training. This approach marks a shift towards practices compliant with FAIR
standards. Our framework presents guidelines for integrating FAIR data
principles into LLM training. This initiative includes a checklist for
researchers and developers. We also demonstrate its practical application
through a case study focused on bias identification and mitigation in our
FAIR-compliant dataset. This work is a significant contribution to AI ethics
and data science, advocating for balanced and ethical training methods in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、倫理的プラクティスとデータの完全性の必要性を強調している。
LLMトレーニングにFAIR(Findable, Accessible, Interoperable, Reusable)のデータ原則を組み込むフレームワークを導入します。
このアプローチは、FAIR標準に準拠したプラクティスへの移行を示すものだ。
我々のフレームワークは、FAIRデータ原則をLLMトレーニングに統合するためのガイドラインを提示します。
このイニシアチブには、研究者と開発者のためのチェックリストが含まれている。
また,公平に適合したデータセットにおけるバイアス識別と緩和に焦点を当てたケーススタディを通じて,その実践的応用を実証する。
この研究はAI倫理とデータサイエンスに大きな貢献をしており、LLMにおけるバランスのとれた倫理的な訓練方法を提唱している。
関連論文リスト
- Experiences from Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。
私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。
この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T06:08:57Z) - Deploying Large Language Models With Retrieval Augmented Generation [0.21485350418225244]
Retrieval Augmented Generationは、大規模言語モデルのトレーニングセット外のデータソースからの知識を統合するための重要なアプローチとして登場した。
本稿では,LLMとRAGを統合して情報検索を行うパイロットプロジェクトの開発とフィールドテストから得られた知見について述べる。
論文 参考訳(メタデータ) (2024-11-07T22:11:51Z) - Architectural Foundations for the Large Language Model Infrastructures [0.9463895540925061]
大規模言語モデル(LLM)インフラストラクチャの開発は、人工知能における重要な取り組みである。
本稿では,LLMのインフラ,ソフトウェア,データ管理の複雑な状況について考察する。
論文 参考訳(メタデータ) (2024-08-17T13:54:34Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。
自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文 参考訳(メタデータ) (2024-02-23T18:45:35Z) - A Survey on Knowledge Distillation of Large Language Models [99.11900233108487]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。
本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文 参考訳(メタデータ) (2024-02-20T16:17:37Z) - A Study on the Implementation of Generative AI Services Using an
Enterprise Data-Based LLM Application Architecture [0.0]
本研究では,Large Language Models (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。
この研究は、不十分なデータの問題を軽減するための戦略を練り上げ、カスタマイズされたソリューションを提供している。
この研究の重要な貢献は、検索型拡張世代(RAG)モデルの開発である。
論文 参考訳(メタデータ) (2023-09-03T07:03:17Z) - FAIR for AI: An interdisciplinary and international community building
perspective [19.2239109259925]
FAIRの原則は、適切なデータ管理とスチュワードシップの前提条件として2016年に提案された。
FAIRの原則は、データを生成するソフトウェア、ツール、アルゴリズム、データセットを含むように再解釈または拡張されている。
このレポートは2022年6月7日にアルゴンヌ国立研究所で開催されたFAIR for AIワークショップに基づいている。
論文 参考訳(メタデータ) (2022-09-30T22:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。