論文の概要: ICE-GRT: Instruction Context Enhancement by Generative Reinforcement
based Transformers
- arxiv url: http://arxiv.org/abs/2401.02072v1
- Date: Thu, 4 Jan 2024 05:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:56:27.550490
- Title: ICE-GRT: Instruction Context Enhancement by Generative Reinforcement
based Transformers
- Title(参考訳): ICE-GRT:生成強化型変換器による指示文脈の強化
- Authors: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun
Zhou
- Abstract要約: 近接政策最適化(PPO)に基づく人間フィードバック(RLHF)からの強化学習を活用したICE-GRTを導入する。
ICE-GRTの探索は、堅牢な回答を生成するだけでなく、その答えの背後にある理由を詳細に分析するための理解と推論能力を強調している。
ICE-GRTモデルは、ドメイン固有のタスクや12の汎用言語タスクにおいて、同等のサイズとさらに大きなLLMに対して、最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 24.650024753993957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA
encounter limitations in domain-specific tasks, with these models often lacking
depth and accuracy in specialized areas, and exhibiting a decrease in general
capabilities when fine-tuned, particularly analysis ability in small sized
models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement
Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization
(PPO), demonstrating remarkable ability in in-domain scenarios without
compromising general task performance. Our exploration of ICE-GRT highlights
its understanding and reasoning ability to not only generate robust answers but
also to provide detailed analyses of the reasons behind the answer. This
capability marks a significant progression beyond the scope of Supervised
Fine-Tuning models. The success of ICE-GRT is dependent on several crucial
factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage
Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in
domain-specific tasks and across 12 general Language tasks against equivalent
size and even larger size LLMs, highlighting the effectiveness of our approach.
We provide a comprehensive analysis of the ICE-GRT, underscoring the
significant advancements it brings to the field of LLM.
- Abstract(参考訳): chatgptやllamaといった大規模言語モデル(llm)の出現は、専門分野における深さや精度の欠如や、微調整時の一般的な能力の低下、特に小規模モデルにおける分析能力の低下など、ドメイン固有のタスクに制限が伴う。
これらのギャップに対処するために,PPO(Proximal Policy Optimization)に基づくRLHF(Reinforcement Learning from Human Feedback)を活用するICE-GRTを導入する。
ICE-GRTの探索は、堅牢な回答を生成するだけでなく、その答えの背後にある理由を詳細に分析するための理解と推論能力を強調している。
この機能は、Supervised Fine-Tuningモデルの範囲を超えて大幅に進歩している。
ICE-GRTの成功は、適切なデータ、リワードサイズスケーリング、KL-Control、アドバンテージ正規化など、いくつかの重要な要因に依存している。
ICE-GRTモデルは、ドメイン固有タスクおよび12の汎用言語タスクにおいて、同等のサイズとさらに大きなLLMに対して最先端の性能を示す。
我々はICE-GRTを包括的に分析し、それがLLMの分野にもたらす重要な進歩を裏付ける。
関連論文リスト
- Introducing Super RAGs in Mistral 8x7B-v1 [2.5690340428649328]
Super Retrieval-Augmented Generation (Super RAGs)は、大規模言語モデル(LLM)の性能を高めるために設計された新しいアプローチである。
本稿では,8x7B v1へのスーパーRAGの統合について述べるとともに,精度,速度,ユーザ満足度の改善について検討する。
論文 参考訳(メタデータ) (2024-04-13T09:33:00Z) - Privacy Preserving Prompt Engineering: A Survey [14.402638881376419]
事前学習された言語モデル(PLM)は、広範囲の自然言語処理(NLP)タスクを解くのに非常に有能である。
その結果、これらのモデルのサイズは近年顕著に拡大している。
プライバシーに関する懸念は、広く使われている中で大きな障害となっている。
論文 参考訳(メタデータ) (2024-04-09T04:11:25Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - Exploring Sparsity in Graph Transformers [67.48149404841925]
グラフ変換器(GT)は、様々なグラフ関連タスクにおいて印象的な結果を得た。
しかし、GTsの膨大な計算コストは、特に資源制約のある環境でのデプロイメントと応用を妨げる。
我々は、GTの計算複雑性を低減するのに役立つ、包括的な textbfGraph textbfTransformer textbfSParsification (GTSP) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-09T06:21:44Z) - On the Long Range Abilities of Transformers [69.3021852589771]
トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
論文 参考訳(メタデータ) (2023-11-28T09:21:48Z) - GEAR: Augmenting Language Models with Generalizable and Efficient Tool
Resolution [18.633918831942434]
外部ツールを使用するために大きな言語モデル(LLM)を拡張することで、さまざまなタスクにおけるパフォーマンスが向上する。
本稿では,ツールの使用を必要とする様々なタスクに一般化可能なクエリツールグラウンドアルゴリズムであるGEARを紹介する。
論文 参考訳(メタデータ) (2023-07-17T18:42:05Z) - One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning [34.109808214968176]
Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。
一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。
GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-13T17:59:32Z) - FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient
Package for Federated Graph Learning [65.48760613529033]
フェデレートグラフ学習(FGL)は、その特徴と要求のため、十分にサポートされていない。
まず、使い易いFGLパッケージを作成する際の課題について議論し、実装済みのFederatedScope-GNN(FS-G)を提示する。
我々は,FS-Gの有効性を広範囲な実験によって検証し,同時にコミュニティにとってのFGLに関する貴重な洞察を得る。
論文 参考訳(メタデータ) (2022-04-12T06:48:06Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。