論文の概要: The Open Source Advantage in Large Language Models (LLMs)
- arxiv url: http://arxiv.org/abs/2412.12004v1
- Date: Mon, 16 Dec 2024 17:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:07.579520
- Title: The Open Source Advantage in Large Language Models (LLMs)
- Title(参考訳): 大規模言語モデル(LLM)におけるオープンソースアドバンテージ
- Authors: Jiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)の重要な転換点である。
LLaMAやBLOOMといったオープンソースのイニシアチブは、コミュニティ主導の開発と計算効率による民主化を優先している。
確実に、クローズドソースアプローチとオープンソースアプローチの緊張は、AIにおける透明性とコントロールに関するより広範な議論を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) mark a key shift in natural language processing (NLP), having advanced text generation, translation, and domain-specific reasoning. Closed-source models like GPT-4, powered by proprietary datasets and extensive computational resources, lead with state-of-the-art performance today. However, they face criticism for their "black box" nature and for limiting accessibility in a manner that hinders reproducibility and equitable AI development. By contrast, open-source initiatives like LLaMA and BLOOM prioritize democratization through community-driven development and computational efficiency. These models have significantly reduced performance gaps, particularly in linguistic diversity and domain-specific applications, while providing accessible tools for global researchers and developers. Notably, both paradigms rely on foundational architectural innovations, such as the Transformer framework by Vaswani et al. (2017). Closed-source models excel by scaling effectively, while open-source models adapt to real-world applications in underrepresented languages and domains. Techniques like Low-Rank Adaptation (LoRA) and instruction-tuning datasets enable open-source models to achieve competitive results despite limited resources. To be sure, the tension between closed-source and open-source approaches underscores a broader debate on transparency versus proprietary control in AI. Ethical considerations further highlight this divide. Closed-source systems restrict external scrutiny, while open-source models promote reproducibility and collaboration but lack standardized auditing documentation frameworks to mitigate biases. Hybrid approaches that leverage the strengths of both paradigms are likely to shape the future of LLM innovation, ensuring accessibility, competitive technical performance, and ethical deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度なテキスト生成、翻訳、ドメイン固有の推論を持つ自然言語処理(NLP)の重要な転換点である。
プロプライエタリなデータセットと広範な計算リソースを駆使したGPT-4のようなクローズドソースモデルは、今日の最先端のパフォーマンスをリードしている。
しかし、彼らは「ブラックボックス」の性質と、再現性と平等なAI開発を妨げる方法でアクセシビリティを制限することに対する批判に直面している。
対照的に、LLaMAやBLOOMのようなオープンソースのイニシアチブは、コミュニティ主導の開発と計算効率を通じて民主化を優先している。
これらのモデルは、特に言語的多様性とドメイン固有のアプリケーションにおいて、パフォーマンスのギャップを著しく減らし、グローバルな研究者や開発者にとってアクセス可能なツールを提供している。
特に、両パラダイムは、Vaswani et al (2017)によるTransformerフレームワークなど、基本的なアーキテクチャ革新に依存している。
クローズド・ソース・モデルは効果的にスケーリングすることで優れ、一方、オープンソース・モデルは、表現不足の言語やドメインにおける現実世界のアプリケーションに適応する。
Low-Rank Adaptation (LoRA)やインストラクションチューニングデータセットのような技術により、限られたリソースにもかかわらず、オープンソースのモデルが競合する結果を達成することができる。
確実に、クローズドソースアプローチとオープンソースアプローチの緊張は、AIにおけるプロプライエタリなコントロールに対する透明性に関する広範な議論を浮き彫りにする。
倫理的な考慮は、この分割をさらに強調する。
クローズドソースシステムは外部の精査を制限する一方で、オープンソースモデルは再現性とコラボレーションを促進するが、バイアスを軽減するための標準化された監査ドキュメントフレームワークは欠如している。
両方のパラダイムの長所を生かしたハイブリッドアプローチは、LLMイノベーションの未来、アクセシビリティ、競争力のある技術的パフォーマンス、倫理的展開を形作る可能性が高い。
関連論文リスト
- Rethinking Scale: The Efficacy of Fine-Tuned Open-Source LLMs in Large-Scale Reproducible Social Science Research [0.0]
大規模言語モデル(LLM)は、パラメータのサイズと性能を規定するアーキテクチャによって区別される。
社会科学者はテキスト分類タスクにLLMを採用しており、人間のコーダーではスケールが難しい。
本研究は,ChatGPT-4 などのモデルに対して,小型かつ微調整のオープンソース LLM が同等あるいは優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-31T20:26:30Z) - Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。
等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。
7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文 参考訳(メタデータ) (2024-10-17T16:04:07Z) - OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models [61.14336781917986]
大規模言語モデル(LLM)の推論能力を高めるためのオープンソースのフレームワークであるOpenRを紹介する。
OpenRは、データ取得、強化学習トレーニング、非自己回帰デコーディングを凝集性ソフトウェアプラットフォームに統合する。
私たちの研究は、OpenAIのo1モデルのコア技術と強化学習を探求する、オープンソースのフレームワークを初めて提供するものです。
論文 参考訳(メタデータ) (2024-10-12T23:42:16Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - Open-Source AI-based SE Tools: Opportunities and Challenges of Collaborative Software Learning [23.395624804517034]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)タスクの進展に役立っている。
これらのAIベースのSEモデルのコラボレーションは、高品質なデータソースの最大化に重点を置いている。
特に高品質のデータは、しばしば商業的または機密性の高い価値を持ち、オープンソースAIベースのSEプロジェクトではアクセスできない。
論文 参考訳(メタデータ) (2024-04-09T10:47:02Z) - Is open source software culture enough to make AI a common ? [0.0]
言語モデル(LM)は人工知能(AI)の分野でますます普及している
この疑問は、ユーザコミュニティによって管理され、維持される共通のリソースであるかどうかというものである。
LMを作成するのに必要なデータとリソースをコモンズとして扱うことの潜在的な利点を強調します。
論文 参考訳(メタデータ) (2024-03-19T14:43:52Z) - Open-Sourcing Highly Capable Foundation Models: An evaluation of risks,
benefits, and alternative methods for pursuing open-source objectives [6.575445633821399]
AIラボをオープンソースにするか、あるいはモデルへのアクセスを制限するという最近の決定は、議論を巻き起こした。
本稿では,高機能基盤モデルのオープンソース化のリスクとメリットについて考察する。
論文 参考訳(メタデータ) (2023-09-29T17:03:45Z) - Universal Source-Free Domain Adaptation [57.37520645827318]
ドメイン適応のための新しい2段階学習プロセスを提案する。
Procurementの段階では、今後のカテゴリギャップやドメインシフトに関する事前知識を前提とせず、将来的なソースフリーデプロイメントのためのモデルの提供を目標としています。
Deploymentの段階では、幅広いカテゴリギャップをまたいで動作可能な統一適応アルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2020-04-09T07:26:20Z) - Towards Inheritable Models for Open-Set Domain Adaptation [56.930641754944915]
本稿では、将来、ソースデータセットが存在しない場合の適応を容易にするために、ソース学習モデルを用いた実用的なドメイン適応パラダイムを提案する。
本稿では,ソースデータがない場合でも,対象領域に対して最適なソースモデルの選択を可能にするために,継承可能性の定量化を目的とする手法を提案する。
論文 参考訳(メタデータ) (2020-04-09T07:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。