論文の概要: The Open Source Advantage in Large Language Models (LLMs)
- arxiv url: http://arxiv.org/abs/2412.12004v1
- Date: Mon, 16 Dec 2024 17:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:50:00.527907
- Title: The Open Source Advantage in Large Language Models (LLMs)
- Title(参考訳): 大規模言語モデル(LLM)におけるオープンソースアドバンテージ
- Authors: Jiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)の重要な転換点である。
LLaMAやBLOOMといったオープンソースのイニシアチブは、コミュニティ主導の開発と計算効率による民主化を優先している。
確実に、クローズドソースアプローチとオープンソースアプローチの緊張は、AIにおける透明性とコントロールに関するより広範な議論を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) mark a key shift in natural language processing (NLP), having advanced text generation, translation, and domain-specific reasoning. Closed-source models like GPT-4, powered by proprietary datasets and extensive computational resources, lead with state-of-the-art performance today. However, they face criticism for their "black box" nature and for limiting accessibility in a manner that hinders reproducibility and equitable AI development. By contrast, open-source initiatives like LLaMA and BLOOM prioritize democratization through community-driven development and computational efficiency. These models have significantly reduced performance gaps, particularly in linguistic diversity and domain-specific applications, while providing accessible tools for global researchers and developers. Notably, both paradigms rely on foundational architectural innovations, such as the Transformer framework by Vaswani et al. (2017). Closed-source models excel by scaling effectively, while open-source models adapt to real-world applications in underrepresented languages and domains. Techniques like Low-Rank Adaptation (LoRA) and instruction-tuning datasets enable open-source models to achieve competitive results despite limited resources. To be sure, the tension between closed-source and open-source approaches underscores a broader debate on transparency versus proprietary control in AI. Ethical considerations further highlight this divide. Closed-source systems restrict external scrutiny, while open-source models promote reproducibility and collaboration but lack standardized auditing documentation frameworks to mitigate biases. Hybrid approaches that leverage the strengths of both paradigms are likely to shape the future of LLM innovation, ensuring accessibility, competitive technical performance, and ethical deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度なテキスト生成、翻訳、ドメイン固有の推論を持つ自然言語処理(NLP)の重要な転換点である。
プロプライエタリなデータセットと広範な計算リソースを駆使したGPT-4のようなクローズドソースモデルは、今日の最先端のパフォーマンスをリードしている。
しかし、彼らは「ブラックボックス」の性質と、再現性と平等なAI開発を妨げる方法でアクセシビリティを制限することに対する批判に直面している。
対照的に、LLaMAやBLOOMのようなオープンソースのイニシアチブは、コミュニティ主導の開発と計算効率を通じて民主化を優先している。
これらのモデルは、特に言語的多様性とドメイン固有のアプリケーションにおいて、パフォーマンスのギャップを著しく減らし、グローバルな研究者や開発者にとってアクセス可能なツールを提供している。
特に、両パラダイムは、Vaswani et al (2017)によるTransformerフレームワークなど、基本的なアーキテクチャ革新に依存している。
クローズド・ソース・モデルは効果的にスケーリングすることで優れ、一方、オープンソース・モデルは、表現不足の言語やドメインにおける現実世界のアプリケーションに適応する。
Low-Rank Adaptation (LoRA)やインストラクションチューニングデータセットのような技術により、限られたリソースにもかかわらず、オープンソースのモデルが競合する結果を達成することができる。
確実に、クローズドソースアプローチとオープンソースアプローチの緊張は、AIにおけるプロプライエタリなコントロールに対する透明性に関する広範な議論を浮き彫りにする。
倫理的な考慮は、この分割をさらに強調する。
クローズドソースシステムは外部の精査を制限する一方で、オープンソースモデルは再現性とコラボレーションを促進するが、バイアスを軽減するための標準化された監査ドキュメントフレームワークは欠如している。
両方のパラダイムの長所を生かしたハイブリッドアプローチは、LLMイノベーションの未来、アクセシビリティ、競争力のある技術的パフォーマンス、倫理的展開を形作る可能性が高い。
関連論文リスト
- The Role of Open-Source LLMs in Shaping the Future of GeoAI [11.083173173865491]
大規模言語モデル(LLM)は地理空間人工知能(GeoAI)を変換している
本稿では,このトランスフォーメーションにおけるオープンソースパラダイムの役割について考察する。
論文 参考訳(メタデータ) (2025-04-24T13:20:17Z) - Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Distributed LLMs and Multimodal Large Language Models: A Survey on Advances, Challenges, and Future Directions [1.3638337521666275]
言語モデル (LM) は、テキストなどの大規模データセットに基づいて単語列の確率を推定することにより、言語パターンを予測する機械学習モデルである。
より大きなデータセットは一般的にLM性能を高めるが、計算能力とリソースの制約のためスケーラビリティは依然として課題である。
近年の研究では、分散トレーニングと推論を可能にする分散型技術の開発に焦点が当てられている。
論文 参考訳(メタデータ) (2025-03-20T15:18:25Z) - Comprehensive Analysis of Transparency and Accessibility of ChatGPT, DeepSeek, And other SoTA Large Language Models [2.6900047294457683]
オープンソース人工知能(AI)に関する議論が増えているが、既存の研究は、最先端(SoTA)大規模言語モデル(LLM)の透明性とアクセシビリティに関する議論を欠いている。
この研究は、ChatGPT、DeepSeek、LLaMAなどを含む過去5年間のSoTA LLMを批判的に分析し、透明性標準への準拠と部分的開放性の影響を評価する。
我々の研究結果によると、いくつかのモデルはオープンソースとしてラベル付けされているが、必ずしも完全にオープンソースであるとは限らない。
論文 参考訳(メタデータ) (2025-02-21T23:53:13Z) - Fully Open Source Moxin-7B Technical Report [38.13392000279939]
大きな言語モデル(LLM)は、その人気と能力の急激な上昇によって、大きな変革を遂げている。
この問題を緩和するために、モデルオープンネスフレームワーク(MOF)に従って開発された完全にオープンソースなLLMであるMoxin 7Bを紹介します。
本モデルは,事前学習コードと構成の包括的リリースを通じて,オープンサイエンスのMOF分類レベルを最大化する。
論文 参考訳(メタデータ) (2024-12-08T02:01:46Z) - Rethinking Scale: The Efficacy of Fine-Tuned Open-Source LLMs in Large-Scale Reproducible Social Science Research [0.0]
大規模言語モデル(LLM)は、パラメータのサイズと性能を規定するアーキテクチャによって区別される。
社会科学者はテキスト分類タスクにLLMを採用しており、人間のコーダーではスケールが難しい。
本研究は,ChatGPT-4 などのモデルに対して,小型かつ微調整のオープンソース LLM が同等あるいは優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-31T20:26:30Z) - A Comprehensive Survey on Joint Resource Allocation Strategies in Federated Edge Learning [9.806901443019008]
Federated Edge Learning (FEL)は、分散環境でのモデルトレーニングを可能にすると同時に、ユーザデータの物理的分離を利用することで、ユーザのプライバシを確保する。
IoT(Internet of Things)やSmart Earthといった複雑なアプリケーションシナリオの開発により、従来のリソース割り当てスキームは、これらの増大する計算および通信要求を効果的にサポートすることができなくなった。
本稿では,複数の資源需要が増大する中で,計算と通信の多面的課題を体系的に解決する。
論文 参考訳(メタデータ) (2024-10-10T13:02:00Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Large Language Model as a Catalyst: A Paradigm Shift in Base Station Siting Optimization [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。
提案するフレームワークは、検索拡張生成(RAG)を組み込んで、ドメイン固有の知識を取得してソリューションを生成するシステムの能力を高める。
論文 参考訳(メタデータ) (2024-08-07T08:43:32Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Open-Source AI-based SE Tools: Opportunities and Challenges of Collaborative Software Learning [23.395624804517034]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)タスクの進展に役立っている。
これらのAIベースのSEモデルのコラボレーションは、高品質なデータソースの最大化に重点を置いている。
特に高品質のデータは、しばしば商業的または機密性の高い価値を持ち、オープンソースAIベースのSEプロジェクトではアクセスできない。
論文 参考訳(メタデータ) (2024-04-09T10:47:02Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Open-Sourcing Highly Capable Foundation Models: An evaluation of risks,
benefits, and alternative methods for pursuing open-source objectives [6.575445633821399]
AIラボをオープンソースにするか、あるいはモデルへのアクセスを制限するという最近の決定は、議論を巻き起こした。
本稿では,高機能基盤モデルのオープンソース化のリスクとメリットについて考察する。
論文 参考訳(メタデータ) (2023-09-29T17:03:45Z) - External Reasoning: Towards Multi-Large-Language-Models Interchangeable
Assistance with Human Feedback [0.0]
本稿では、外部リポジトリからの知識の選択的統合により、LLM(Large Language Models)を拡張できることを提案する。
このアプローチの中心は、複数のLLMインターチェンジ支援に基づくTextbf外部推論のためのタイレッドポリシーの確立である。
結果は、Crefcomparisonにおける最先端のパフォーマンスを示し、ChatPDF.comを含む既存のソリューションを上回った。
論文 参考訳(メタデータ) (2023-07-05T17:05:32Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Universal Source-Free Domain Adaptation [57.37520645827318]
ドメイン適応のための新しい2段階学習プロセスを提案する。
Procurementの段階では、今後のカテゴリギャップやドメインシフトに関する事前知識を前提とせず、将来的なソースフリーデプロイメントのためのモデルの提供を目標としています。
Deploymentの段階では、幅広いカテゴリギャップをまたいで動作可能な統一適応アルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2020-04-09T07:26:20Z) - Towards Inheritable Models for Open-Set Domain Adaptation [56.930641754944915]
本稿では、将来、ソースデータセットが存在しない場合の適応を容易にするために、ソース学習モデルを用いた実用的なドメイン適応パラダイムを提案する。
本稿では,ソースデータがない場合でも,対象領域に対して最適なソースモデルの選択を可能にするために,継承可能性の定量化を目的とする手法を提案する。
論文 参考訳(メタデータ) (2020-04-09T07:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。