Fugu-MT 論文翻訳(概要): CLLoRA: An Approach to Measure the Effects of the Context Length for LLM Fine-Tuning

論文の概要: CLLoRA: An Approach to Measure the Effects of the Context Length for LLM Fine-Tuning

arxiv url: http://arxiv.org/abs/2502.18910v1
Date: Wed, 26 Feb 2025 07:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:46.421278
Title: CLLoRA: An Approach to Measure the Effects of the Context Length for LLM Fine-Tuning
Title（参考訳）: CLLoRA:LLMファインチューニングにおける文脈長の測定方法
Authors: Ping Zhang, Zhaorui Zhang, Sheng Di, Yao Xin, Benben Liu,
Abstract要約: 大規模な言語モデルは、しばしば異なるデータ所有者にわたる連合学習環境において微調整される。トレーニングデータのコンテキストの長さは、モデルの性能に影響を与える主要な要因として特定されている。 CLLoRAは、文脈の品質と長さが、非IIDコンテキストを測定するための標準となるかどうかを調査する。
参考スコア（独自算出の注目度）: 9.932192503139703
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language model fine-tuning has been identified as an efficient approach to applying the pre-trained Large language models to other domains. To guarantee data privacy for different data owners, models are often fine-tuned in federated learning environments across different data owners, which often involve data heterogeneity issues and affect the fine-tuning performance. In addition, the length of the context for the training data has been identified as a major factor that affects the LLM's model performance. To efficiently measure how the context length affects the LLM's model performance in heterogeneous federated learning environments, we propose CLLoRA. CLLoRA utilizes the parameter-efficient fine-tuning approach LoRA based on different kinds of LLMs with varying sizes as the fine-tuning approach to investigate whether the quality and length of contexts can serve as standards for measuring non-IID context. The findings indicate that an imbalance in context quality not only affects local training on clients but also impacts the global model's performance. However, context length has a minimal effect on local training but a more significant influence on the global model. These results provide insights into how context quality and length affect the model performance for LLM fine-tuning in federated learning environments.
Abstract（参考訳）: 大規模言語モデルの微調整は、事前訓練された大規模言語モデルを他のドメインに適用するための効率的なアプローチとして認識されている。異なるデータオーナに対するデータのプライバシを保証するため、モデルはしばしば、異なるデータオーナにわたるフェデレーション付き学習環境で微調整される。さらに,LLMのモデル性能に影響を及ぼす要因として,トレーニングデータのコンテキストの長さが同定されている。不均一なフェデレーション学習環境において,文脈長がLLMのモデル性能に与える影響を効率的に測定するために,CLLoRAを提案する。 CLLoRAは,異なる大きさのLLMを基準としたパラメータ効率の高い微調整アプローチLoRAを用いて,文脈の質と長さが,非IIDコンテキスト測定の基準となるかどうかを検討する。その結果、文脈品質の不均衡は、クライアントのローカルトレーニングに影響を及ぼすだけでなく、グローバルモデルの性能にも影響を及ぼすことがわかった。しかしながら、文脈長は局所訓練に最小限の影響を与えるが、グローバルモデルにさらに大きな影響を及ぼす。これらの結果から,連合学習環境におけるLLM微調整における文脈品質と長さがモデル性能に与える影響について考察した。

関連論文リスト

HBO: Hierarchical Balancing Optimization for Fine-Tuning Large Language Models [71.12193680015622]
多様なデータセット上の微調整された大きな言語モデルは、データの不均衡と不均一性による課題を引き起こす。本稿では,LLMがデータアロケーションを自律的に調整できる新しい手法である階層的バランシング最適化(HBO)を紹介する。我々は,多言語およびマルチタスク設定において,9つのタスクにまたがる3つのLLMバックボーン上でHBOを評価する。
論文参考訳（メタデータ） (2025-05-18T08:31:44Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
MIRA: A Method of Federated MultI-Task Learning for LaRge LAnguage Models [29.655807841018497]
大規模言語モデル(LLM)の微調整手法を提案する。提案手法は,各クライアントモデルの構造を利用して,他のクライアントのタスクやデータ分散を考慮した学習手法を実現する。実験結果は,異なるデータセットとモデルを用いて,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-20T22:24:40Z)
Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文参考訳（メタデータ） (2024-09-12T16:20:57Z)
Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (2024-08-19T11:09:12Z)
Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文参考訳（メタデータ） (2024-08-07T04:20:28Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
Unveiling the Impact of Coding Data Instruction Fine-Tuning on Large Language Models Reasoning [64.5243480989869]
コーディングデータは、事前訓練中に推論能力を高めることで知られています。 IFTにおける内的推論能力の活性化におけるその役割はいまだ検討されている。 IFT段階におけるLLMの推論能力に及ぼす符号化データの影響について検討する。
論文参考訳（メタデータ） (2024-05-30T23:20:25Z)
LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文参考訳（メタデータ） (2024-04-13T01:13:59Z)
Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文参考訳（メタデータ） (2024-03-14T08:18:59Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。