Fugu-MT 論文翻訳(概要): FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training?

論文の概要: FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training?

arxiv url: http://arxiv.org/abs/2401.11033v1
Date: Fri, 19 Jan 2024 21:21:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 18:17:06.653807
Title: FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training?
Title（参考訳）: FAIR Enough: 大規模言語モデルのトレーニングにFAIR互換のデータセットをどのように開発し評価するか?
Authors: Shaina Raza, Shardul Ghuge, Chen Ding, Deval Pandya
Abstract要約: FAIRデータ原則をLLM(Large Language Models)トレーニングに組み込むフレームワークを紹介します。このアプローチは、FAIR標準に準拠したプラクティスへのシフトを意味します。
参考スコア（独自算出の注目度）: 3.424426758686647
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advancements in Large Language Models (LLMs) highlight the need for ethical practices and data integrity. We introduce a framework that embeds FAIR (Findable, Accessible, Interoperable, Reusable) data principles into LLM training. This approach marks a shift towards practices compliant with FAIR standards. Our framework presents guidelines for integrating FAIR data principles into LLM training. This initiative includes a checklist for researchers and developers. We also demonstrate its practical application through a case study focused on bias identification and mitigation in our FAIR-compliant dataset. This work is a significant contribution to AI ethics and data science, advocating for balanced and ethical training methods in LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩は、倫理的プラクティスとデータの完全性の必要性を強調している。 LLMトレーニングにFAIR(Findable, Accessible, Interoperable, Reusable)のデータ原則を組み込むフレームワークを導入します。このアプローチは、FAIR標準に準拠したプラクティスへの移行を示すものだ。我々のフレームワークは、FAIRデータ原則をLLMトレーニングに統合するためのガイドラインを提示します。このイニシアチブには、研究者と開発者のためのチェックリストが含まれている。また,公平に適合したデータセットにおけるバイアス識別と緩和に焦点を当てたケーススタディを通じて,その実践的応用を実証する。この研究はAI倫理とデータサイエンスに大きな貢献をしており、LLMにおけるバランスのとれた倫理的な訓練方法を提唱している。

関連論文リスト

Data and AI governance: Promoting equity, ethics, and fairness in large language models [0.0]
機械学習モデルのライフサイクル全体にわたってバイアスを管理し、評価し、定量化するためのアプローチをカバーします。データとAIのガバナンスアプローチは、実践的で現実的なアプリケーションに適している。
論文参考訳（メタデータ） (2025-08-05T23:15:31Z)
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Practical Considerations for Agentic LLM Systems [5.455744338342196]
本稿では、確立されたアプリケーションパラダイムの文脈における研究コミュニティからの実行可能な洞察と考察について述べる。すなわち、アプリケーション中心の文献における一般的な実践に基づいて、関連する研究成果を4つの幅広いカテゴリ – プランニング、メモリツール、コントロールフロー – に位置づける。
論文参考訳（メタデータ） (2024-12-05T11:57:49Z)
Experiences from Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-15T06:08:57Z)
Deploying Large Language Models With Retrieval Augmented Generation [0.21485350418225244]
Retrieval Augmented Generationは、大規模言語モデルのトレーニングセット外のデータソースからの知識を統合するための重要なアプローチとして登場した。本稿では,LLMとRAGを統合して情報検索を行うパイロットプロジェクトの開発とフィールドテストから得られた知見について述べる。
論文参考訳（メタデータ） (2024-11-07T22:11:51Z)
Architectural Foundations for the Large Language Model Infrastructures [0.9463895540925061]
大規模言語モデル(LLM)インフラストラクチャの開発は、人工知能における重要な取り組みである。本稿では,LLMのインフラ,ソフトウェア,データ管理の複雑な状況について考察する。
論文参考訳（メタデータ） (2024-08-17T13:54:34Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。 Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。 RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文参考訳（メタデータ） (2024-05-10T02:48:45Z)
LEARN: Knowledge Adaptation from Large Language Model to Recommendation for Practical Industrial Application [54.984348122105516]
Llm-driven knowlEdge Adaptive RecommeNdation (LEARN)フレームワークは、オープンワールドの知識と協調的な知識をシナジする。オープンワールドの知識と協調的な知識を相乗化するLlm-driven knowlEdge Adaptive RecommeNdation (LEARN) フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-07T04:00:30Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文参考訳（メタデータ） (2024-02-23T18:45:35Z)
A Survey on Knowledge Distillation of Large Language Models [99.11900233108487]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文参考訳（メタデータ） (2024-02-20T16:17:37Z)
A Study on the Implementation of Generative AI Services Using an Enterprise Data-Based LLM Application Architecture [0.0]
本研究では,Large Language Models (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。この研究は、不十分なデータの問題を軽減するための戦略を練り上げ、カスタマイズされたソリューションを提供している。この研究の重要な貢献は、検索型拡張世代(RAG)モデルの開発である。
論文参考訳（メタデータ） (2023-09-03T07:03:17Z)
FAIR for AI: An interdisciplinary and international community building perspective [19.2239109259925]
FAIRの原則は、適切なデータ管理とスチュワードシップの前提条件として2016年に提案された。 FAIRの原則は、データを生成するソフトウェア、ツール、アルゴリズム、データセットを含むように再解釈または拡張されている。このレポートは2022年6月7日にアルゴンヌ国立研究所で開催されたFAIR for AIワークショップに基づいている。
論文参考訳（メタデータ） (2022-09-30T22:05:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。