論文の概要: Efficient Strategy for Improving Large Language Model (LLM) Capabilities
- arxiv url: http://arxiv.org/abs/2508.04073v1
- Date: Wed, 06 Aug 2025 04:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.545325
- Title: Efficient Strategy for Improving Large Language Model (LLM) Capabilities
- Title(参考訳): 大規模言語モデル(LLM)能力向上のための効率的な戦略
- Authors: Julián Camilo Velandia Gutiérrez,
- Abstract要約: 大規模言語モデル(LLM)は、人工知能と自然言語処理の分野でマイルストーンとなっている。
大規模なデプロイメントは、重要な計算リソースの必要性によって、依然として制限されている。
この研究は、データ処理と慎重なデータ選択手法を探索し組み合わせるためのベースモデルから始めることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become a milestone in the field of artificial intelligence and natural language processing. However, their large-scale deployment remains constrained by the need for significant computational resources. This work proposes starting from a base model to explore and combine data processing and careful data selection techniques, training strategies, and architectural adjustments to improve the efficiency of LLMs in resource-constrained environments and within a delimited knowledge base. The methodological approach included defining criteria for building reliable datasets, conducting controlled experiments with different configurations, and systematically evaluating the resulting variants in terms of capability, versatility, response time, and safety. Finally, comparative tests were conducted to measure the performance of the developed variants and to validate the effectiveness of the proposed strategies. This work is based on the master's thesis in Systems and Computer Engineering titled "Efficient Strategy for Improving the Capabilities of Large Language Models (LLMs)".
- Abstract(参考訳): 大規模言語モデル(LLM)は、人工知能と自然言語処理の分野でマイルストーンとなっている。
しかし、彼らの大規模展開は、重要な計算資源の必要性によって制約され続けている。
本研究は,データ処理とデータ選択手法,トレーニング戦略,アーキテクチャ調整を基礎モデルから構築し,資源制約下でのLLMの効率向上を図ることを目的とする。
方法論的アプローチには、信頼性のあるデータセットを構築するための基準を定義し、異なる構成で制御された実験を実行し、能力、汎用性、応答時間、安全性の観点から結果の変種を体系的に評価することが含まれていた。
最後に, 提案手法の有効性を検証し, 提案手法の有効性を検証するために比較試験を行った。
この研究は、"Efficient Strategy for Improving the Capabilities of Large Language Models (LLMs)"と題された、システムとコンピュータ工学の修士論文に基づいている。
関連論文リスト
- Systematic Evaluation of Optimization Techniques for Long-Context Language Models [15.377591633726396]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクにまたがるが、リソース要求と限られたコンテキストウインドウに対処する。
本稿では、これらの最適化を体系的にベンチマークし、メモリ使用量、レイテンシ、スループットを特徴付けるとともに、これらの手法がテキスト生成の品質に与える影響について検討する。
論文 参考訳(メタデータ) (2025-08-01T04:17:24Z) - Transferable Modeling Strategies for Low-Resource LLM Tasks: A Prompt and Alignment-Based Approach [1.3286097954612326]
本稿では,低リソース言語シナリオにおける大規模言語モデルの伝達と適応能力の制限について論じる。
知識伝達モジュールとパラメータ効率のよい微調整戦略を組み合わせた統合フレームワークを提案する。
大規模言語モデルの一般的な機能を維持しながら、タスク固有の適応性を向上させる。
論文 参考訳(メタデータ) (2025-07-01T09:34:49Z) - Improving Multilingual Math Reasoning for African Languages [49.27985213689457]
データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価する実験を行う。
実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
論文 参考訳(メタデータ) (2025-05-26T11:35:01Z) - Generalizing Large Language Model Usability Across Resource-Constrained [0.43512163406552007]
論文は、現実世界の制約下での大規模言語モデルを一般化するための体系的な研究である。
まず、LLMが多様なモダリティをシームレスに統合することを可能にする、堅牢なテキスト中心アライメントフレームワークを導入する。
マルチモーダル設定以外にも、この論文はLLMの推論時間最適化戦略を研究している。
論文 参考訳(メタデータ) (2025-05-13T01:00:12Z) - Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study [11.452011929848844]
本研究では,マルチタスク最適化を支援するメタサロゲートフレームワークを提案する。
問題群に適合するメタデータを持つ普遍モデルを定義することにより、多タスクフィットネス予測のための統一的なフレームワークを定式化する。
我々のフレームワークは、双対レベルの知識伝達 -- 代理レベルと個別レベルの両方 -- をサポートし、最適化の効率性と堅牢性を高めます。
論文 参考訳(メタデータ) (2025-03-11T11:13:11Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Skill Learning Using Process Mining for Large Language Model Plan Generation [0.0]
大規模言語モデル(LLM)は複雑なタスクの計画を生成することを約束する。
それらの効果は、逐次実行、制御フローモデルの欠如、スキル検索の難しさによって制限される。
プロセスマイニング技術を統合することで,LLMにおけるスキル学習に新たなアプローチを導入する。
論文 参考訳(メタデータ) (2024-10-14T12:48:42Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。