Fugu-MT 論文翻訳(概要): FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training?

論文の概要: FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training?

arxiv url: http://arxiv.org/abs/2401.11033v3
Date: Tue, 27 Feb 2024 12:51:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 21:17:20.012481
Title: FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training?
Title（参考訳）: FAIR Enough: 大規模言語モデルのトレーニングにFAIR互換のデータセットをどのように開発し評価するか?
Authors: Shaina Raza, Shardul Ghuge, Chen Ding, Elham Dolatabadi, Deval Pandya
Abstract要約: 我々は、FAIR原則を大規模言語モデルトレーニングプロセスに組み込む新しいフレームワークを紹介します。このアプローチの重要な側面は、研究者や開発者が一貫してFAIRデータ原則を適用するのを支援するために設計された包括的なチェックリストである。我々は、技術的に先進的で健全で社会的に責任のあるAIモデルを推進するための手段として、このフレームワークをコミュニティに提供します。
参考スコア（独自算出の注目度）: 3.2218683514739506
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid evolution of Large Language Models (LLMs) underscores the critical importance of ethical considerations and data integrity in AI development, emphasizing the role of FAIR (Findable, Accessible, Interoperable, Reusable) data principles. While these principles have long been a cornerstone of ethical data stewardship, their application in LLM training data is less prevalent, an issue our research aims to address. Our study begins with a review of existing literature, highlighting the significance of FAIR principles in data management for model training. Building on this foundation, we introduce a novel framework that incorporates FAIR principles into the LLM training process. A key aspect of this approach is a comprehensive checklist, designed to assist researchers and developers in consistently applying FAIR data principles throughout the model development lifecycle. The practicality and effectiveness of our framework are demonstrated through a case study that involves creating a FAIR-compliant dataset to detect and reduce biases. This case study not only validates the usefulness of our framework but also establishes new benchmarks for more equitable, transparent, and ethical practices in LLM training. We offer this framework to the community as a means to promote technologically advanced, ethically sound, and socially responsible AI models.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な進化は、AI開発における倫理的考慮とデータの完全性の重要性を強調し、FAIR(Findable, Accessible, Interoperable, Reusable)データ原則の役割を強調している。これらの原則は長年、倫理データスチュワードシップの基盤となっているが、LLMトレーニングデータへの応用はそれほど一般的ではない。本研究は,既存文献のレビューから始まり,モデルトレーニングにおけるデータ管理における公平な原則の重要性を強調する。この基盤の上に構築され、FAIR原則をLLMトレーニングプロセスに組み込む新しいフレームワークを導入します。このアプローチの重要な側面は包括的なチェックリストであり、モデル開発ライフサイクルを通じて、研究者や開発者が公平なデータ原則を一貫して適用することを支援するように設計されている。我々のフレームワークの実践性と有効性は、バイアスを検出して低減するFAIR準拠のデータセットを作成するケーススタディによって実証される。このケーススタディは、我々のフレームワークの有用性を検証するだけでなく、LLMトレーニングにおけるより公平で透明で倫理的な実践のための新しいベンチマークを確立する。我々は、技術的に進歩し、倫理的に健全で、社会的に責任のあるAIモデルを促進する手段として、このフレームワークをコミュニティに提供する。

関連論文リスト

Data and AI governance: Promoting equity, ethics, and fairness in large language models [0.0]
機械学習モデルのライフサイクル全体にわたってバイアスを管理し、評価し、定量化するためのアプローチをカバーします。データとAIのガバナンスアプローチは、実践的で現実的なアプリケーションに適している。
論文参考訳（メタデータ） (2025-08-05T23:15:31Z)
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Practical Considerations for Agentic LLM Systems [5.455744338342196]
本稿では、確立されたアプリケーションパラダイムの文脈における研究コミュニティからの実行可能な洞察と考察について述べる。すなわち、アプリケーション中心の文献における一般的な実践に基づいて、関連する研究成果を4つの幅広いカテゴリ – プランニング、メモリツール、コントロールフロー – に位置づける。
論文参考訳（メタデータ） (2024-12-05T11:57:49Z)
Experiences from Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-15T06:08:57Z)
Deploying Large Language Models With Retrieval Augmented Generation [0.21485350418225244]
Retrieval Augmented Generationは、大規模言語モデルのトレーニングセット外のデータソースからの知識を統合するための重要なアプローチとして登場した。本稿では,LLMとRAGを統合して情報検索を行うパイロットプロジェクトの開発とフィールドテストから得られた知見について述べる。
論文参考訳（メタデータ） (2024-11-07T22:11:51Z)
Architectural Foundations for the Large Language Model Infrastructures [0.9463895540925061]
大規模言語モデル(LLM)インフラストラクチャの開発は、人工知能における重要な取り組みである。本稿では,LLMのインフラ,ソフトウェア,データ管理の複雑な状況について考察する。
論文参考訳（メタデータ） (2024-08-17T13:54:34Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。 Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。 RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文参考訳（メタデータ） (2024-05-10T02:48:45Z)
LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-07T04:00:30Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文参考訳（メタデータ） (2024-02-23T18:45:35Z)
A Survey on Knowledge Distillation of Large Language Models [99.11900233108487]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文参考訳（メタデータ） (2024-02-20T16:17:37Z)
A Study on the Implementation of Generative AI Services Using an Enterprise Data-Based LLM Application Architecture [0.0]
本研究では,Large Language Models (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。この研究は、不十分なデータの問題を軽減するための戦略を練り上げ、カスタマイズされたソリューションを提供している。この研究の重要な貢献は、検索型拡張世代(RAG)モデルの開発である。
論文参考訳（メタデータ） (2023-09-03T07:03:17Z)
FAIR for AI: An interdisciplinary and international community building perspective [19.2239109259925]
FAIRの原則は、適切なデータ管理とスチュワードシップの前提条件として2016年に提案された。 FAIRの原則は、データを生成するソフトウェア、ツール、アルゴリズム、データセットを含むように再解釈または拡張されている。このレポートは2022年6月7日にアルゴンヌ国立研究所で開催されたFAIR for AIワークショップに基づいている。
論文参考訳（メタデータ） (2022-09-30T22:05:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。