論文の概要: ICE-GRT: Instruction Context Enhancement by Generative Reinforcement
based Transformers
- arxiv url: http://arxiv.org/abs/2401.02072v1
- Date: Thu, 4 Jan 2024 05:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:56:27.550490
- Title: ICE-GRT: Instruction Context Enhancement by Generative Reinforcement
based Transformers
- Title(参考訳): ICE-GRT:生成強化型変換器による指示文脈の強化
- Authors: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun
Zhou
- Abstract要約: 近接政策最適化(PPO)に基づく人間フィードバック(RLHF)からの強化学習を活用したICE-GRTを導入する。
ICE-GRTの探索は、堅牢な回答を生成するだけでなく、その答えの背後にある理由を詳細に分析するための理解と推論能力を強調している。
ICE-GRTモデルは、ドメイン固有のタスクや12の汎用言語タスクにおいて、同等のサイズとさらに大きなLLMに対して、最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 24.650024753993957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA
encounter limitations in domain-specific tasks, with these models often lacking
depth and accuracy in specialized areas, and exhibiting a decrease in general
capabilities when fine-tuned, particularly analysis ability in small sized
models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement
Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization
(PPO), demonstrating remarkable ability in in-domain scenarios without
compromising general task performance. Our exploration of ICE-GRT highlights
its understanding and reasoning ability to not only generate robust answers but
also to provide detailed analyses of the reasons behind the answer. This
capability marks a significant progression beyond the scope of Supervised
Fine-Tuning models. The success of ICE-GRT is dependent on several crucial
factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage
Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in
domain-specific tasks and across 12 general Language tasks against equivalent
size and even larger size LLMs, highlighting the effectiveness of our approach.
We provide a comprehensive analysis of the ICE-GRT, underscoring the
significant advancements it brings to the field of LLM.
- Abstract(参考訳): chatgptやllamaといった大規模言語モデル(llm)の出現は、専門分野における深さや精度の欠如や、微調整時の一般的な能力の低下、特に小規模モデルにおける分析能力の低下など、ドメイン固有のタスクに制限が伴う。
これらのギャップに対処するために,PPO(Proximal Policy Optimization)に基づくRLHF(Reinforcement Learning from Human Feedback)を活用するICE-GRTを導入する。
ICE-GRTの探索は、堅牢な回答を生成するだけでなく、その答えの背後にある理由を詳細に分析するための理解と推論能力を強調している。
この機能は、Supervised Fine-Tuningモデルの範囲を超えて大幅に進歩している。
ICE-GRTの成功は、適切なデータ、リワードサイズスケーリング、KL-Control、アドバンテージ正規化など、いくつかの重要な要因に依存している。
ICE-GRTモデルは、ドメイン固有タスクおよび12の汎用言語タスクにおいて、同等のサイズとさらに大きなLLMに対して最先端の性能を示す。
我々はICE-GRTを包括的に分析し、それがLLMの分野にもたらす重要な進歩を裏付ける。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。
私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。
提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文 参考訳(メタデータ) (2024-10-14T08:06:21Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
金融を含むドメイン固有の文脈における大規模言語モデル(LLM)の適用について検討する。
ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略であるとは限らない。
代わりに、マルチタスクの微調整はパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。
本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文 参考訳(メタデータ) (2024-09-02T08:10:51Z) - A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems [14.72046677914345]
Retrieval Augmented Generation (RAG) は、人工知能の大幅な進歩を表している。
RAGの現在の一般的なプラクティスは、"インストラクトされた"言語モデル(LLM)を使用することです。
本研究は,実験条件下でのRAGタスクにおいて,ベースモデルが指示されたタスクよりも平均20%優れていたことを示す。
論文 参考訳(メタデータ) (2024-06-21T08:31:02Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient
Package for Federated Graph Learning [65.48760613529033]
フェデレートグラフ学習(FGL)は、その特徴と要求のため、十分にサポートされていない。
まず、使い易いFGLパッケージを作成する際の課題について議論し、実装済みのFederatedScope-GNN(FS-G)を提示する。
我々は,FS-Gの有効性を広範囲な実験によって検証し,同時にコミュニティにとってのFGLに関する貴重な洞察を得る。
論文 参考訳(メタデータ) (2022-04-12T06:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。