論文の概要: Dependency Parsing with Backtracking using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.13914v1
- Date: Tue, 28 Jun 2022 11:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 10:51:25.801826
- Title: Dependency Parsing with Backtracking using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習を用いたバックトラックによる依存関係解析
- Authors: Franck Dary, Maxime Petit, Alexis Nasr
- Abstract要約: 我々は強化学習を使用して、そのようなアクションが現在のソリューションを探索し続けるよりも優れた報酬を得る場合、アルゴリズムをバックトラックします。
POSタグ付けと依存性解析の両方でこの考え方を検証し、バックトラッキングがエラーの伝播に対抗する効果的な手段であることを示す。
- 参考スコア(独自算出の注目度): 3.4870723728779573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Greedy algorithms for NLP such as transition based parsing are prone to error
propagation. One way to overcome this problem is to allow the algorithm to
backtrack and explore an alternative solution in cases where new evidence
contradicts the solution explored so far. In order to implement such a
behavior, we use reinforcement learning and let the algorithm backtrack in
cases where such an action gets a better reward than continuing to explore the
current solution. We test this idea on both POS tagging and dependency parsing
and show that backtracking is an effective means to fight against error
propagation.
- Abstract(参考訳): 遷移ベース解析などのNLPのグレディアルゴリズムは、エラーの伝播が困難である。
この問題を解決する方法の1つは、これまで探索された解に矛盾する新しい証拠がある場合、アルゴリズムが別の解を追跡、探索できるようにすることである。
このような動作を実装するために、強化学習を使い、現在のソリューションを探求し続けるよりも、そのようなアクションが報われる場合にアルゴリズムをバックトラックします。
POSタグ付けと依存性解析の両方でこの考え方を検証し、バックトラッキングがエラーの伝播に対抗する効果的な手段であることを示す。
関連論文リスト
- In-Trajectory Inverse Reinforcement Learning: Learn Incrementally Before An Ongoing Trajectory Terminates [10.438810967483438]
逆強化学習(IRL)は報酬関数とそれに対応するポリシーを学習することを目的としている。
現在のIRLの作業は、学習するために少なくとも1つの完全な軌跡を集めるのを待つ必要があるため、進行中の軌跡から漸進的に学習することはできない。
本稿では,現在進行中の軌跡の初期状態対を観察しながら,報酬関数と対応する政策を学習する問題について考察する。
論文 参考訳(メタデータ) (2024-10-21T03:16:32Z) - A Mirror Descent-Based Algorithm for Corruption-Tolerant Distributed Gradient Descent [57.64826450787237]
本研究では, 分散勾配降下アルゴリズムの挙動を, 敵対的腐敗の有無で解析する方法を示す。
汚職耐性の分散最適化アルゴリズムを設計するために、(怠慢な)ミラー降下からアイデアをどう使うかを示す。
MNISTデータセットの線形回帰、サポートベクトル分類、ソフトマックス分類に基づく実験は、我々の理論的知見を裏付けるものである。
論文 参考訳(メタデータ) (2024-07-19T08:29:12Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Block shuffling learning for Deepfake Detection [9.180904212520355]
畳み込みニューラルネットワーク(CNN)に基づくディープフェイク検出手法は精度が高いことを示した。
これらの手法は、未知の偽造法や共通変換に直面すると、しばしば性能が低下する。
本稿では,この問題に対処するためのブロックシャッフル正規化手法を提案する。
論文 参考訳(メタデータ) (2022-02-06T17:16:46Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Neural Non-Rigid Tracking [26.41847163649205]
我々は、新しい、エンドツーエンドの学習可能、差別化可能な非剛性トラッカーを導入する。
我々は畳み込みニューラルネットワークを用いて、密度の高い通信とその信頼性を予測する。
現状の手法と比較して,提案アルゴリズムは再構築性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-23T18:00:39Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。