Fugu-MT 論文翻訳(概要): Unlocking the Power of Function Vectors for Characterizing and Mitigating Catastrophic Forgetting in Continual Instruction Tuning

論文の概要: Unlocking the Power of Function Vectors for Characterizing and Mitigating Catastrophic Forgetting in Continual Instruction Tuning

arxiv url: http://arxiv.org/abs/2502.11019v1
Date: Sun, 16 Feb 2025 07:06:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.798127
Title: Unlocking the Power of Function Vectors for Characterizing and Mitigating Catastrophic Forgetting in Continual Instruction Tuning
Title（参考訳）: 連続的指導指導におけるカタストロフィック予測と緩和のための機能ベクトルの解錠
Authors: Gangwei Jiang, Caigao Jiang, Zhaoyi Li, Siqiao Xue, Jun Zhou, Linqi Song, Defu Lian, Yin Wei,
Abstract要約: 破滅的な忘れ(CF)は、機械学習において重要な課題であり、モデルは新しいタスクを学ぶ際に学習した情報を忘れる。本研究はCFを様々な設定で探索し、モデル忘れは特定のトレーニングタスクとモデル自体の影響を受けていることを発見した。本稿では,FVを安定させ,それを忘れるために正規化手法を取り入れた新しい関数ベクトル誘導訓練手法を提案する。
参考スコア（独自算出の注目度）: 35.34985930216027
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Catastrophic forgetting (CF) poses a significant challenge in machine learning, where a model forgets previously learned information upon learning new tasks. Despite the advanced capabilities of Large Language Models (LLMs), they continue to face challenges with CF during continual learning. The majority of existing research focuses on analyzing forgetting patterns through a singular training sequence, thereby overlooking the intricate effects that diverse tasks have on model behavior. Our study explores CF across various settings, discovering that model forgetting is influenced by both the specific training tasks and the models themselves. To this end, we interpret forgetting by examining the function vector (FV), a compact representation of functions in LLMs, offering a model-dependent indicator for the occurrence of CF. Through theoretical and empirical analyses, we demonstrated that CF in LLMs primarily stems from biases in function activation rather than the overwriting of task processing functions. Leveraging these insights, we propose a novel function vector guided training methodology, incorporating a regularization technique to stabilize the FV and mitigate forgetting. Empirical tests on four benchmarks confirm the effectiveness of our proposed training method, substantiating our theoretical framework concerning CF and model function dynamics. We plan to make our code publicly accessible in the near future.
Abstract（参考訳）: 破滅的な忘れ(CF)は、機械学習において重要な課題であり、モデルは新しいタスクを学ぶ際に学習した情報を忘れる。 LLM(Large Language Models)の高度な機能にもかかわらず、継続的な学習ではCFの課題に直面し続けている。既存の研究の大半は、特異なトレーニングシーケンスを通じてパターンを忘れることを分析することに焦点を当てており、それによって、様々なタスクがモデル行動にもたらす複雑な影響を見越すことになる。本研究はCFを様々な設定で探索し、モデル忘れは特定のトレーニングタスクとモデル自体の影響を受けていることを発見した。この目的のために,LLMにおける関数のコンパクト表現である関数ベクトル(FV)を調べ,CFの発生のモデル依存指標を提供する。理論的および経験的分析により, LLMにおけるCFは, タスク処理関数のオーバーライトよりも, 関数活性化のバイアスに起因していることが実証された。これらの知見を生かして,FVを安定させ,忘れを緩和する正規化手法を取り入れた,関数ベクトル誘導訓練手法を提案する。 4つのベンチマークの実証実験により,提案手法の有効性が確認され,CFとモデル関数のダイナミクスに関する理論的枠組みが実証された。近い将来、コードを公開する予定です。

関連論文リスト

Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
An Analysis for Reasoning Bias of Language Models with Small Initialization [8.380004565348619]
大規模言語モデル(LLM)は、さまざまなタスクにまたがる例外的なパフォーマンスを示すことによって、自然言語処理に革命をもたらした。本研究では,パラメータ初期化尺度がLLMの訓練行動とタスク嗜好に及ぼす影響について検討した。
論文参考訳（メタデータ） (2025-02-05T15:23:26Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [6.691759477350243]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文参考訳（メタデータ） (2024-10-16T12:14:25Z)
Theoretical Insights into Overparameterized Models in Multi-Task and Replay-Based Continual Learning [37.745896674964186]
マルチタスク学習(MTL)は,複数のタスクを同時に学習することで,複数のタスクにおけるモデルの一般化性能を向上させることを目的としている。連続学習(CL)は、以前取得した知識を忘れずに、時間とともに新しい逐次到着タスクに適応する。 MTL設定におけるモデルの性能に及ぼす各種システムパラメータの影響を理論的に記述する。その結果,バッファサイズとモデルキャパシティがCLセットアップの記憶率に及ぼす影響を明らかにし,最先端のCL手法のいくつかに光を当てるのに役立つことがわかった。
論文参考訳（メタデータ） (2024-08-29T23:22:40Z)
Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-07-18T17:59:27Z)
DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。 ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文参考訳（メタデータ） (2024-05-22T15:52:52Z)
Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。 LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文参考訳（メタデータ） (2023-10-12T10:20:36Z)
Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文参考訳（メタデータ） (2023-05-22T13:18:17Z)
Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。 AMPLIFYは,幅広いタスクに対して約10～25%の精度向上を実現している。
論文参考訳（メタデータ） (2023-05-19T04:46:04Z)
Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。 MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文参考訳（メタデータ） (2022-03-05T14:15:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。