Fugu-MT 論文翻訳(概要): ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers

論文の概要: ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers

arxiv url: http://arxiv.org/abs/2401.02072v1
Date: Thu, 4 Jan 2024 05:47:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 15:56:27.550490
Title: ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers
Title（参考訳）: ICE-GRT:生成強化型変換器による指示文脈の強化
Authors: Chen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou
Abstract要約: 近接政策最適化(PPO)に基づく人間フィードバック(RLHF)からの強化学習を活用したICE-GRTを導入する。 ICE-GRTの探索は、堅牢な回答を生成するだけでなく、その答えの背後にある理由を詳細に分析するための理解と推論能力を強調している。 ICE-GRTモデルは、ドメイン固有のタスクや12の汎用言語タスクにおいて、同等のサイズとさらに大きなLLMに対して、最先端のパフォーマンスを示す。
参考スコア（独自算出の注目度）: 24.650024753993957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA encounter limitations in domain-specific tasks, with these models often lacking depth and accuracy in specialized areas, and exhibiting a decrease in general capabilities when fine-tuned, particularly analysis ability in small sized models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization (PPO), demonstrating remarkable ability in in-domain scenarios without compromising general task performance. Our exploration of ICE-GRT highlights its understanding and reasoning ability to not only generate robust answers but also to provide detailed analyses of the reasons behind the answer. This capability marks a significant progression beyond the scope of Supervised Fine-Tuning models. The success of ICE-GRT is dependent on several crucial factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in domain-specific tasks and across 12 general Language tasks against equivalent size and even larger size LLMs, highlighting the effectiveness of our approach. We provide a comprehensive analysis of the ICE-GRT, underscoring the significant advancements it brings to the field of LLM.
Abstract（参考訳）: chatgptやllamaといった大規模言語モデル(llm)の出現は、専門分野における深さや精度の欠如や、微調整時の一般的な能力の低下、特に小規模モデルにおける分析能力の低下など、ドメイン固有のタスクに制限が伴う。これらのギャップに対処するために,PPO(Proximal Policy Optimization)に基づくRLHF(Reinforcement Learning from Human Feedback)を活用するICE-GRTを導入する。 ICE-GRTの探索は、堅牢な回答を生成するだけでなく、その答えの背後にある理由を詳細に分析するための理解と推論能力を強調している。この機能は、Supervised Fine-Tuningモデルの範囲を超えて大幅に進歩している。 ICE-GRTの成功は、適切なデータ、リワードサイズスケーリング、KL-Control、アドバンテージ正規化など、いくつかの重要な要因に依存している。 ICE-GRTモデルは、ドメイン固有タスクおよび12の汎用言語タスクにおいて、同等のサイズとさらに大きなLLMに対して最先端の性能を示す。我々はICE-GRTを包括的に分析し、それがLLMの分野にもたらす重要な進歩を裏付ける。

関連論文リスト

Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks [10.074110713679739]
モバイルネットワークにおけるルート原因分析(RCA)は、解釈可能性、ドメインの専門知識、因果推論を必要とするため、依然として困難な課題である。 RCAにLarge Language Models(LLM)を利用する軽量フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-29T16:21:42Z)
DeepRTL2: A Versatile Model for RTL-Related Tasks [10.44277146824812]
提案するDeepRTL2は,RTLに関連する生成タスクと埋め込みタスクの両方を統一する汎用大規模言語モデル(LLM)のファミリーである。幅広いタスクに同時に取り組むことで、DeepRTL2は、EDAのさまざまな課題に対する包括的なソリューションを提供する最初のモデルである。
論文参考訳（メタデータ） (2025-05-28T09:28:39Z)
STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs [49.41782982417187]
MLLM(Multimodal Large Language Models)は、様々なタスクにまたがる顕著な能力を示すが、空間的推論において人間よりもはるかに遅れている。このギャップを変換駆動型視覚推論(TVR)を用いて検討する。本稿では,STAR-R1を提案する。STAR-R1は単一ステージのRLパラダイムとTVRに適した微細な報酬機構を統合した新しいフレームワークである。
論文参考訳（メタデータ） (2025-05-21T17:57:38Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
Enhancing the Reasoning Capabilities of Small Language Models via Solution Guidance Fine-Tuning [14.857842644246634]
本稿では,SG(Solution Guidance)およびSGFT(Solution-Guidance Fine-Tuning)について紹介する。 SGは、特定の計算ではなく、意味的および論理的なレベルでの問題理解と分解に焦点を当てている。 SGFTは、SLMを微調整して正確な問題解決ガイダンスを生成することができ、任意のSLMにプロンプトとして柔軟に供給することができる。
論文参考訳（メタデータ） (2024-12-13T06:45:26Z)
From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。 GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文参考訳（メタデータ） (2024-12-11T15:06:25Z)
GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文参考訳（メタデータ） (2024-12-06T05:46:43Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
LOBG:Less Overfitting for Better Generalization in Vision-Language Model [19.890629892640206]
視覚言語モデルのためのLOBGというフレームワークを提案する。私たちはCLIPを使用して、オーバーフィッティングを引き起こす可能性のあるきめ細かいフォアグラウンド情報をフィルタリングし、基本的な視覚概念でプロンプトを導く。提案手法は,最先端手法と比較して,一般化能力を大幅に向上し,過度な適合を緩和する。
論文参考訳（メタデータ） (2024-10-14T08:06:21Z)
Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
金融を含むドメイン固有の文脈における大規模言語モデル(LLM)の適用について検討する。ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略であるとは限らない。代わりに、マルチタスクの微調整はパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-10-01T22:35:56Z)
Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。パフォーマンスギャップを実証的に説明するための一連の実験を考案する。
論文参考訳（メタデータ） (2024-09-27T05:06:43Z)
Unleashing the Power of Task-Specific Directions in Parameter Efficient Fine-tuning [65.31677646659895]
本稿では,タスク固有の方向性 (TSD) の概念に着目し,大規模モデルを事前学習状態からPEFTにおけるタスク固有の拡張へ移行させる。本稿では,微調整過程におけるTSDの影響を最大化し,目標タスクにおけるモデル性能を向上させることを目的とした新しいアプローチであるLoRA-Dashを紹介する。
論文参考訳（メタデータ） (2024-09-02T08:10:51Z)
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems [14.72046677914345]
Retrieval Augmented Generation (RAG) は、人工知能の大幅な進歩を表している。 RAGの現在の一般的なプラクティスは、"インストラクトされた"言語モデル(LLM)を使用することです。本研究は,実験条件下でのRAGタスクにおいて,ベースモデルが指示されたタスクよりも平均20%優れていたことを示す。
論文参考訳（メタデータ） (2024-06-21T08:31:02Z)
Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文参考訳（メタデータ） (2024-04-19T14:05:03Z)
Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文参考訳（メタデータ） (2024-03-14T08:18:59Z)
FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning [65.48760613529033]
フェデレートグラフ学習(FGL)は、その特徴と要求のため、十分にサポートされていない。まず、使い易いFGLパッケージを作成する際の課題について議論し、実装済みのFederatedScope-GNN(FS-G)を提示する。我々は,FS-Gの有効性を広範囲な実験によって検証し,同時にコミュニティにとってのFGLに関する貴重な洞察を得る。
論文参考訳（メタデータ） (2022-04-12T06:48:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。