論文の概要: TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.06762v1
- Date: Tue, 10 Oct 2023 16:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:36:40.677766
- Title: TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models
- Title(参考訳): TRACE:大規模言語モデルにおける継続的学習のための総合ベンチマーク
- Authors: Xiao Wang, Yuansen Zhang, Tianze Chen, Songyang Gao, Senjie Jin,
Xianjun Yang, Zhiheng Xi, Rui Zheng, Yicheng Zou, Tao Gui, Qi Zhang, Xuanjing
Huang
- Abstract要約: 調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
- 参考スコア(独自算出の注目度): 52.734140807634624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligned large language models (LLMs) demonstrate exceptional capabilities in
task-solving, following instructions, and ensuring safety. However, the
continual learning aspect of these aligned LLMs has been largely overlooked.
Existing continual learning benchmarks lack sufficient challenge for leading
aligned LLMs, owing to both their simplicity and the models' potential exposure
during instruction tuning. In this paper, we introduce TRACE, a novel benchmark
designed to evaluate continual learning in LLMs. TRACE consists of 8 distinct
datasets spanning challenging tasks including domain-specific tasks,
multilingual capabilities, code generation, and mathematical reasoning. All
datasets are standardized into a unified format, allowing for effortless
automatic evaluation of LLMs. Our experiments show that after training on
TRACE, aligned LLMs exhibit significant declines in both general ability and
instruction-following capabilities. For example, the accuracy of llama2-chat
13B on gsm8k dataset declined precipitously from 28.8\% to 2\% after training
on our datasets. This highlights the challenge of finding a suitable tradeoff
between achieving performance on specific tasks while preserving the original
prowess of LLMs. Empirical findings suggest that tasks inherently equipped with
reasoning paths contribute significantly to preserving certain capabilities of
LLMs against potential declines. Motivated by this, we introduce the
Reasoning-augmented Continual Learning (RCL) approach. RCL integrates
task-specific cues with meta-rationales, effectively reducing catastrophic
forgetting in LLMs while expediting convergence on novel tasks.
- Abstract(参考訳): 一致した大規模言語モデル(llm)は、タスク解決、従順命令、安全性の確保において例外的な能力を示している。
しかし、これらのLLMの継続的な学習の側面は概ね見過ごされている。
既存の連続学習ベンチマークは、命令チューニング中のモデルの単純さと潜在的な露出の両方のために、整列 LLM をリードするのに十分な課題を欠いている。
本稿では,LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
TRACEはドメイン固有のタスク、多言語機能、コード生成、数学的推論など、困難なタスクにまたがる8つのデータセットで構成されている。
すべてのデータセットは統一フォーマットに標準化され、LCMの自動評価が可能となる。
実験の結果, TRACE の訓練後, 協調 LLM は汎用能力と命令追従能力の両方に有意な低下を示した。
例えば、gsm8kデータセット上のllama2-chat 13bの精度は、トレーニング後の28.8\%から2\%に低下した。
このことは、LLMの本来の長所を保ちながら、特定のタスクのパフォーマンスを達成するための適切なトレードオフを見つけるという課題を強調している。
実験結果から, 推論経路を本質的に備えたタスクは, 潜在的な低下に対するLLMの特定の能力維持に大きく寄与することが示唆された。
そこで我々は,Reasoning-augmented Continual Learning (RCL)アプローチを導入する。
RCLはタスク固有のキューをメタリレーショナルと統合し、新しいタスクへの収束を迅速化しつつ、LLMの破滅的な忘れを効果的に減少させる。
関連論文リスト
- Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LinkGPT: Teaching Large Language Models To Predict Missing Links [23.57145845001286]
大規模言語モデル(LLM)は、様々な言語やビジョンタスクにおいて有望な結果を示している。
近年、グラフベースのタスク、特にテキスト分散グラフ(TAG)にLLMを適用することへの関心が高まっている。
論文 参考訳(メタデータ) (2024-06-07T04:54:36Z) - Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization [12.885866125783618]
大規模言語モデル(LLM)は、特定のクエリに対する不正確な応答を生成する傾向がある。
我々は, LLMのトークン化に挑戦するために, $textbfADT (TokenizerのAdrial dataset)$という逆データセットを構築した。
GPT-4o, Llama-3, Qwen2.5-maxなど, 先進LLMのトークン化に挑戦する上で, 当社のADTは極めて有効であることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-27T11:39:59Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。