論文の概要: Is Open Source the Future of AI? A Data-Driven Approach
- arxiv url: http://arxiv.org/abs/2501.16403v1
- Date: Mon, 27 Jan 2025 09:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:43:18.040004
- Title: Is Open Source the Future of AI? A Data-Driven Approach
- Title(参考訳): AIの未来はオープンソースか? データ駆動アプローチ
- Authors: Domen Vake, Bogdan Šinik, Jernej Vičič, Aleksandar Tošić,
- Abstract要約: 大規模言語モデル(LLM)は、学術と産業の中心となっている。
鍵となる問題は、プロプライエタリなモデルの信頼性であり、オープンソースはしばしばソリューションとして提案される。
オープンソースは、潜在的な誤用、財務上の不利益、知的財産権の懸念など、課題を提示している。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License:
- Abstract: Large Language Models (LLMs) have become central in academia and industry, raising concerns about privacy, transparency, and misuse. A key issue is the trustworthiness of proprietary models, with open-sourcing often proposed as a solution. However, open-sourcing presents challenges, including potential misuse, financial disincentives, and intellectual property concerns. Proprietary models, backed by private sector resources, are better positioned for return on investment. There are also other approaches that lie somewhere on the spectrum between completely open-source and proprietary. These can largely be categorised into open-source usage limitations protected by licensing, partially open-source (open weights) models, hybrid approaches where obsolete model versions are open-sourced, while competitive versions with market value remain proprietary. Currently, discussions on where on the spectrum future models should fall on remains unbacked and mostly opinionated where industry leaders are weighing in on the discussion. In this paper, we present a data-driven approach by compiling data on open-source development of LLMs, and their contributions in terms of improvements, modifications, and methods. Our goal is to avoid supporting either extreme but rather present data that will support future discussions both by industry experts as well as policy makers. Our findings indicate that open-source contributions can enhance model performance, with trends such as reduced model size and manageable accuracy loss. We also identify positive community engagement patterns and architectures that benefit most from open contributions.
- Abstract(参考訳): 大規模言語モデル(LLM)は学術や産業の中心となり、プライバシー、透明性、誤用に対する懸念を高めている。
主要な問題はプロプライエタリなモデルの信頼性であり、オープンソースはしばしばソリューションとして提案される。
しかし、オープンソースは、潜在的な誤用、財務上の不利益、知的財産権の懸念など、課題を提示している。
民間の資源に支えられたプロプライエタリなモデルは、投資のリターンに適している。
また、完全にオープンソースとプロプライエタリの中間に位置するアプローチもある。
これらは主に、ライセンス、部分的にオープンソース(オープンウェイト)モデル、時代遅れのモデルバージョンがオープンソースであるハイブリッドアプローチ、市場価値の競合バージョンがプロプライエタリなままである、などによって保護されるオープンソース利用制限に分類することができる。
現在、将来のモデルがどこに落ちるべきかについての議論は、まだ裏付けられておらず、業界リーダーが議論に重きを置いているところがほとんどである。
本稿では,LLMのオープンソース開発に関するデータをコンパイルしてデータ駆動型アプローチを提案する。
当社の目標は、業界の専門家と政策立案者の両方による今後の議論を支援するために、極端なデータを支持するのではなく、むしろ提示するデータを支援することです。
この結果から,オープンソースコントリビューションは,モデルサイズ削減や管理可能な精度損失といったトレンドを伴って,モデル性能を向上させることが可能であることが示唆された。
また、オープンコントリビューションから最も恩恵を受ける、ポジティブなコミュニティエンゲージメントパターンとアーキテクチャを特定します。
関連論文リスト
- Rethinking Scale: The Efficacy of Fine-Tuned Open-Source LLMs in Large-Scale Reproducible Social Science Research [0.0]
大規模言語モデル(LLM)は、パラメータのサイズと性能を規定するアーキテクチャによって区別される。
社会科学者はテキスト分類タスクにLLMを採用しており、人間のコーダーではスケールが難しい。
本研究は,ChatGPT-4 などのモデルに対して,小型かつ微調整のオープンソース LLM が同等あるいは優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-31T20:26:30Z) - On the modification and revocation of open source licences [0.14843690728081999]
本稿では、オープンソースコントリビュータがユーザに最新のモデルの更新を強制する権利のサブセットを作成することを主張する。
オープンソースAIモデルに関連する法的、評判、道徳的なリスクは、下流の使用をもっとコントロールできるコントリビュータを正当化する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T00:00:25Z) - Open-Source AI-based SE Tools: Opportunities and Challenges of Collaborative Software Learning [23.395624804517034]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)タスクの進展に役立っている。
これらのAIベースのSEモデルのコラボレーションは、高品質なデータソースの最大化に重点を置いている。
特に高品質のデータは、しばしば商業的または機密性の高い価値を持ち、オープンソースAIベースのSEプロジェクトではアクセスできない。
論文 参考訳(メタデータ) (2024-04-09T10:47:02Z) - On the Societal Impact of Open Foundation Models [93.67389739906561]
ここでは、広く利用可能なモデルウェイトを持つものとして定義されている、オープンファンデーションモデルに重点を置いています。
オープンファンデーションモデルの5つの特徴を識別し,その利点とリスクを両立させる。
論文 参考訳(メタデータ) (2024-02-27T16:49:53Z) - OLMo: Accelerating the Science of Language Models [165.16277690540363]
言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。
商業的重要性が増すにつれ、最も強力なモデルは閉鎖され、プロプライエタリなインターフェースに遅れを取っている。
我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。
私たちは、言語モデルの科学的研究を可能にするために、競争力のある真にオープンな言語モデルであるOLMoを構築しました。
論文 参考訳(メタデータ) (2024-02-01T18:28:55Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Open-Sourcing Highly Capable Foundation Models: An evaluation of risks,
benefits, and alternative methods for pursuing open-source objectives [6.575445633821399]
AIラボをオープンソースにするか、あるいはモデルへのアクセスを制限するという最近の決定は、議論を巻き起こした。
本稿では,高機能基盤モデルのオープンソース化のリスクとメリットについて考察する。
論文 参考訳(メタデータ) (2023-09-29T17:03:45Z) - Foundation Models and Fair Use [96.04664748698103]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。
本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。
基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文 参考訳(メタデータ) (2023-03-28T03:58:40Z) - Towards Inheritable Models for Open-Set Domain Adaptation [56.930641754944915]
本稿では、将来、ソースデータセットが存在しない場合の適応を容易にするために、ソース学習モデルを用いた実用的なドメイン適応パラダイムを提案する。
本稿では,ソースデータがない場合でも,対象領域に対して最適なソースモデルの選択を可能にするために,継承可能性の定量化を目的とする手法を提案する。
論文 参考訳(メタデータ) (2020-04-09T07:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。