論文の概要: Balancing Exploration and Exploitation in LLM using Soft RLLF for
Enhanced Negation Understanding
- arxiv url: http://arxiv.org/abs/2403.01185v1
- Date: Sat, 2 Mar 2024 11:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:01:50.825675
- Title: Balancing Exploration and Exploitation in LLM using Soft RLLF for
Enhanced Negation Understanding
- Title(参考訳): ソフトRLLFを用いたLLMの高次否定理解のためのバランシング探索と爆発
- Authors: Ha-Thanh Nguyen, Ken Satoh
- Abstract要約: NLPにおける微調整のアプローチは、しばしば探索よりも搾取に焦点を当てる。
論理フィードバックからの強化学習を活用して、言語モデルにおける探索と搾取の効果的なバランスを作る。
これは、より正確で信頼性があり、論理的に一貫した言語モデルの開発に意味を持つ。
- 参考スコア(独自算出の注目度): 4.799288023353623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning approaches in NLP often focus on exploitation rather than
exploration, which may lead to suboptimal models. Given the vast search space
of natural language, this limited exploration can restrict their performance in
complex, high-stakes domains, where accurate negation understanding and logical
reasoning abilities are crucial. To address this issue, we leverage
Reinforcement Learning from Logical Feedback (RLLF) to create an effective
balance between exploration and exploitation in LLMs. Our approach employs an
appropriate benchmark dataset for training and evaluation, highlighting the
importance of exploration in enhancing negation understanding capabilities. We
compare the performance of our RLLF-enhanced LLMs with baseline models trained
without RLLF, demonstrating the value of this balanced approach. Furthermore,
we showcase the potential of our method in legal AI applications by employing
transfer learning and evaluating its impact on negation understanding. Our
experimental results exhibit the effectiveness of balancing exploration and
exploitation with RLLF in improving LLMs' negation capabilities. This has
implications for the development of more accurate, reliable, and logically
consistent language models in high-stakes domains.
- Abstract(参考訳): NLPにおける微調整のアプローチは、しばしば探索よりも搾取に焦点を当てる。
自然言語の膨大な探索空間を考えると、この限定された探索は、正確な否定理解と論理的推論能力が不可欠である複雑で高度な領域におけるそれらの性能を制限することができる。
この問題に対処するために、論理フィードバック(RLLF)からの強化学習を活用し、LLMにおける探索と活用の効果的なバランスを作る。
本手法は,学習と評価に適切なベンチマークデータセットを用い,否定理解能力向上における探索の重要性を強調する。
RLLFを使用せずにトレーニングしたベースラインモデルと比較し,このバランスの取れたアプローチの有効性を示した。
さらに, トランスファー学習を応用し, ネゲーション理解に与える影響を評価することで, 法的ai応用における本手法の可能性を示す。
実験の結果,LLMの否定能力向上にRLLFを用いた探索と利用のバランスをとる効果が示された。
これは、より正確で信頼性が高く、論理的に一貫性のある言語モデルの開発に意味を持つ。
関連論文リスト
- Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse RL [7.988692259455583]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測する上で,最大80.40%の精度を達成できる報酬モデルを抽出し,様々な大きさの毒性アライメントLDMについて実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。
本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文 参考訳(メタデータ) (2024-10-15T15:46:53Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。