論文の概要: Balancing Exploration and Exploitation in LLM using Soft RLLF for
Enhanced Negation Understanding
- arxiv url: http://arxiv.org/abs/2403.01185v1
- Date: Sat, 2 Mar 2024 11:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:01:50.825675
- Title: Balancing Exploration and Exploitation in LLM using Soft RLLF for
Enhanced Negation Understanding
- Title(参考訳): ソフトRLLFを用いたLLMの高次否定理解のためのバランシング探索と爆発
- Authors: Ha-Thanh Nguyen, Ken Satoh
- Abstract要約: NLPにおける微調整のアプローチは、しばしば探索よりも搾取に焦点を当てる。
論理フィードバックからの強化学習を活用して、言語モデルにおける探索と搾取の効果的なバランスを作る。
これは、より正確で信頼性があり、論理的に一貫した言語モデルの開発に意味を持つ。
- 参考スコア(独自算出の注目度): 4.799288023353623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning approaches in NLP often focus on exploitation rather than
exploration, which may lead to suboptimal models. Given the vast search space
of natural language, this limited exploration can restrict their performance in
complex, high-stakes domains, where accurate negation understanding and logical
reasoning abilities are crucial. To address this issue, we leverage
Reinforcement Learning from Logical Feedback (RLLF) to create an effective
balance between exploration and exploitation in LLMs. Our approach employs an
appropriate benchmark dataset for training and evaluation, highlighting the
importance of exploration in enhancing negation understanding capabilities. We
compare the performance of our RLLF-enhanced LLMs with baseline models trained
without RLLF, demonstrating the value of this balanced approach. Furthermore,
we showcase the potential of our method in legal AI applications by employing
transfer learning and evaluating its impact on negation understanding. Our
experimental results exhibit the effectiveness of balancing exploration and
exploitation with RLLF in improving LLMs' negation capabilities. This has
implications for the development of more accurate, reliable, and logically
consistent language models in high-stakes domains.
- Abstract(参考訳): NLPにおける微調整のアプローチは、しばしば探索よりも搾取に焦点を当てる。
自然言語の膨大な探索空間を考えると、この限定された探索は、正確な否定理解と論理的推論能力が不可欠である複雑で高度な領域におけるそれらの性能を制限することができる。
この問題に対処するために、論理フィードバック(RLLF)からの強化学習を活用し、LLMにおける探索と活用の効果的なバランスを作る。
本手法は,学習と評価に適切なベンチマークデータセットを用い,否定理解能力向上における探索の重要性を強調する。
RLLFを使用せずにトレーニングしたベースラインモデルと比較し,このバランスの取れたアプローチの有効性を示した。
さらに, トランスファー学習を応用し, ネゲーション理解に与える影響を評価することで, 法的ai応用における本手法の可能性を示す。
実験の結果,LLMの否定能力向上にRLLFを用いた探索と利用のバランスをとる効果が示された。
これは、より正確で信頼性が高く、論理的に一貫性のある言語モデルの開発に意味を持つ。
関連論文リスト
- Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Rethinking the Roles of Large Language Models in Chinese Grammatical
Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。
CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。
CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文 参考訳(メタデータ) (2024-02-18T01:40:34Z) - C-ICL: Contrastive In-context Learning for Information Extraction [44.08005184704089]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Rethinking Machine Unlearning for Large Language Models [89.99791628154274]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Pedagogical Alignment of Large Language Models [26.68545613232345]
本稿では,Large Language Models (LLM) の新たな概念について紹介する。
LLMは足場ツールとして機能し、複雑な問題を管理可能なサブプロブレムに分解し、建設的なフィードバックとヒントを通じて最終回答へと導く。
本研究では、アライメントのレンズを通してタスクを観察することで物語を再解釈し、RLHF法がいかに優れた代替手段として自然に現れるかを実証する。
論文 参考訳(メタデータ) (2024-02-07T16:15:59Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - User-Controlled Knowledge Fusion in Large Language Models: Balancing
Creativity and Hallucination [5.046007553593371]
大規模言語モデル(LLM)は多様な、関連性があり、創造的な応答を生成する。
LLMの想像力と事実情報への固執のバランスを取ることは重要な課題である。
本稿では,LLMの想像能力と現実情報への忠実さのバランスを調節する,革新的なユーザ制御機構を提案する。
論文 参考訳(メタデータ) (2023-07-30T06:06:35Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。