Fugu-MT 論文翻訳(概要): Rank-One Editing of Encoder-Decoder Models

論文の概要: Rank-One Editing of Encoder-Decoder Models

arxiv url: http://arxiv.org/abs/2211.13317v1
Date: Wed, 23 Nov 2022 21:34:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 14:40:16.901028
Title: Rank-One Editing of Encoder-Decoder Models
Title（参考訳）: エンコーダ・デコーダモデルのランクワン編集
Authors: Vikas Raunak and Arul Menezes
Abstract要約: ランクワン編集は、エンコーダ・デコーダ変換器モデルにおける振舞い削除要求の直接的な介入方法である。 NMTのための4つの編集タスクを提案し、提案アルゴリズムが高い有効性を実現することを示す。
参考スコア（独自算出の注目度）: 12.478605921259403
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large sequence to sequence models for tasks such as Neural Machine Translation (NMT) are usually trained over hundreds of millions of samples. However, training is just the origin of a model's life-cycle. Real-world deployments of models require further behavioral adaptations as new requirements emerge or shortcomings become known. Typically, in the space of model behaviors, behavior deletion requests are addressed through model retrainings whereas model finetuning is done to address behavior addition requests, both procedures being instances of data-based model intervention. In this work, we present a preliminary study investigating rank-one editing as a direct intervention method for behavior deletion requests in encoder-decoder transformer models. We propose four editing tasks for NMT and show that the proposed editing algorithm achieves high efficacy, while requiring only a single instance of positive example to fix an erroneous (negative) model behavior.
Abstract（参考訳）: ニューラルマシン翻訳(nmt)のようなタスクのための大きなシーケンスからシーケンスへのモデルは、通常何億ものサンプルで訓練される。しかし、トレーニングはモデルのライフサイクルの起源に過ぎない。モデルの現実的な展開には、新たな要求が出現したり、欠点が知られるようになると、さらなる行動適応が必要である。通常、モデル行動の空間では、振舞い削除要求はモデルの再訓練によって対処されるが、モデル微調整は、両方のプロシージャがデータベースのモデル介入のインスタンスである振舞い追加要求に対処するために行われる。本研究では,エンコーダ・デコーダ変換器モデルにおける動作削除要求に対する直接介入手法として,ランクワン編集について予備的検討を行う。 NMTのための4つの編集タスクを提案し、提案アルゴリズムは、誤(負)モデルの振る舞いを修正するために、正の例を1つだけ必要としながら、高い有効性を達成することを示す。

関連論文リスト

Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Retrieval Augmented Anomaly Detection (RAAD): Nimble Model Adjustment Without Retraining [3.037546128667634]
Retrieval Augmented Anomaly Detectionは、Retrieval Augmented Generationからインスピレーションを得た新しい手法である。人間の注釈付きサンプルはベクトルストアに送られ、モデル推論のために、非常に次の処理バッチでモデル出力を変更することができる。
論文参考訳（メタデータ） (2025-02-26T20:17:16Z)
Neuron-Level Sequential Editing for Large Language Models [19.324852774144752]
シーケンシャルモデル編集をサポートするための textbfNeuron レベルの textbfSequential textbfEditing (NSE) を導入する。具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。実験の結果、NSEは現在の修正パラメーターモデル編集法よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-10-05T05:52:22Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Consecutive Batch Model Editing with HooK Layers [59.673084839708224]
CoachHooKは、シーケンシャルおよびバッチ編集を同時にサポートするモデル編集方法である。メモリフレンドリで、時間とともにサイズが変化しないいくつかのフック層を格納するために、少量しか必要としない。
論文参考訳（メタデータ） (2024-03-08T14:07:44Z)
$\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文参考訳（メタデータ） (2023-03-26T16:39:44Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
Debugging using Orthogonal Gradient Descent [7.766921168069532]
部分的に欠陥があるトレーニングされたモデルを考えると、モデルをスクラッチからトレーニングすることなく、その振る舞いを修正できますか? 言い換えれば、ニューラルネットワークは、数学的モデルと標準的なコンピュータコードのバグに対処する方法に似ていますか?
論文参考訳（メタデータ） (2022-06-17T00:03:54Z)
Learning to Model Editing Processes [98.11448946134894]
本稿では、反復的にシーケンスを生成するプロセス全体をモデル化し、編集プロセスのモデリングを提案する。我々は、多段階編集の可能性を記述するための概念的枠組みを構築し、これらの多段階編集に基づいてシーケンスの生成モデルを学ぶことができるニューラルネットワークを記述する。
論文参考訳（メタデータ） (2022-05-24T21:32:52Z)
Bridging Pre-trained Models and Downstream Tasks for Source Code Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。我々は、下流データの多様性を豊かにする意味保存変換を利用する。本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文参考訳（メタデータ） (2021-12-04T07:21:28Z)
Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。 MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。 MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文参考訳（メタデータ） (2021-10-21T17:41:56Z)
Factual Error Correction for Abstractive Summarization Models [41.77317902748772]
本稿では,生成した要約の事実誤りを訂正するための編集後修正モジュールを提案する。本モデルでは,他の神経要約モデルによって生成された要約の事実誤りを補正できることが示されている。また、人工的なエラー訂正から下流の設定への移行は依然として非常に困難であることもわかりました。
論文参考訳（メタデータ） (2020-10-17T04:24:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。