論文の概要: GROOT: Corrective Reward Optimization for Generative Sequential Labeling
- arxiv url: http://arxiv.org/abs/2209.14694v1
- Date: Thu, 29 Sep 2022 11:35:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:12:56.341346
- Title: GROOT: Corrective Reward Optimization for Generative Sequential Labeling
- Title(参考訳): GROOT: 生成シークエンシャルラベリングのための補正リワード最適化
- Authors: Kazuma Hashimoto and Karthik Raman
- Abstract要約: テキストシーケンスの生成的リワード最適化のためのフレームワークであるGROOTを提案する。
GROOTは生成逐次ラベリングモデルをトレーニングして、デコーダ出力分布と(ブラックボックス)報酬関数の値とを一致させる。
4つの公開ベンチマークで広範な実験によって示されたように、GROOTはすべての報酬指標を大幅に改善する。
- 参考スコア(独自算出の注目度): 10.306943706927004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential labeling is a fundamental NLP task, forming the backbone of many
applications. Supervised learning of Seq2Seq models (like T5) has shown great
success on these problems. However there remains a significant disconnect
between the training objectives of these models vs the metrics and desiderata
we care about in practical applications. For example, a practical sequence
tagging application may want to optimize for a certain precision-recall
trade-off (of the top-k predictions) which is quite different from the standard
objective of maximizing the likelihood of the gold labeled sequence. Thus to
bridge this gap, we propose GROOT -- a simple yet effective framework for
Generative Reward Optimization Of Text sequences. GROOT works by training a
generative sequential labeling model to match the decoder output distribution
with that of the (black-box) reward function. Using an iterative training
regime, we first generate prediction candidates, then correct errors in them,
and finally contrast those candidates (based on their reward values). As
demonstrated via extensive experiments on four public benchmarks, GROOT
significantly improves all reward metrics. Furthermore, GROOT also leads to
improvements of the overall decoder distribution as evidenced by the quality
gains of the top-$k$ candidates.
- Abstract(参考訳): 逐次ラベリングは基本的なNLPタスクであり、多くのアプリケーションのバックボーンを形成する。
seq2seqモデルの教師付き学習(t5など)は、これらの問題で大きな成功を収めている。
しかしながら、これらのモデルのトレーニング目標と、実践的な応用において私たちが関心を持つメトリクスとデシラタとの間には、大きな隔たりがある。
例えば、実用的なシーケンスタギングアプリケーションは、ゴールドラベル付きシーケンスの可能性を最大化するという標準的な目的とは全く異なる、特定の精度のリコールトレードオフ(トップk予測の)を最適化したいかもしれない。
このギャップを埋めるために、テキストシーケンスの生成的リワード最適化のためのシンプルで効果的なフレームワークであるGROOTを提案する。
GROOTは生成逐次ラベリングモデルをトレーニングして、デコーダ出力分布と(ブラックボックス)報酬関数の値とを一致させる。
反復学習システムを用いて、まず予測候補を生成し、エラーを訂正し、最後に(報酬値に基づいて)それらの候補と対比する。
4つの公開ベンチマークで広範な実験によって示されたように、GROOTはすべての報酬指標を大幅に改善する。
さらに、grootは、上位$k$の候補の品質向上によって示されるように、全体的なデコーダ分布の改善にも繋がる。
関連論文リスト
- Multi-head Sequence Tagging Model for Grammatical Error Correction [31.538895931875565]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、ソースシーケンスとターゲットシーケンスのマッピングである。
現在のシーケンスタギングアプローチでは、あるタスクにレーザーを集中させることで、幅広い文法的誤りを処理できるという問題がある。
本稿では,学習データを効果的に活用し,関連する課題訓練信号からの情報を活用するための,新しいマルチヘッド・マルチタスク学習モデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:01:06Z) - Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning [67.71952251641545]
GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。
GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。
2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2024-03-07T19:47:48Z) - Ranking-based Adaptive Query Generation for DETRs in Crowded Pedestrian
Detection [49.27380156754935]
DETRのクエリの数は手動で調整しなければなりませんが、そうでなければ、パフォーマンスは様々な程度に低下します。
本稿では,ランクに基づく適応クエリ生成(RAQG)を提案し,問題を緩和する。
提案手法は単純かつ効果的であり,任意のDETRにプラグインすることで,理論上クエリ適応性を実現する。
論文 参考訳(メタデータ) (2023-10-24T11:00:56Z) - Rethinking Model Selection and Decoding for Keyphrase Generation with
Pre-trained Sequence-to-Sequence Models [76.52997424694767]
キーフレーズ生成(英: Keyphrase Generation, KPG)は、NLPにおける長年の課題である。
Seq2seq 事前訓練言語モデル (PLM) は KPG に転換期を迎え、有望な性能改善をもたらした。
本稿では, PLM に基づく KPG におけるモデル選択と復号化戦略の影響について, 系統解析を行った。
論文 参考訳(メタデータ) (2023-10-10T07:34:45Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。