論文の概要: Automatic Deduction Path Learning via Reinforcement Learning with
Environmental Correction
- arxiv url: http://arxiv.org/abs/2306.10083v1
- Date: Fri, 16 Jun 2023 11:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:24:19.666220
- Title: Automatic Deduction Path Learning via Reinforcement Learning with
Environmental Correction
- Title(参考訳): 環境補正による強化学習による自動誘導経路学習
- Authors: Shuai Xiao and Chen Pan and Min Wang and Xinxin Zhu and Siqiao Xue and
Jing Wang and Yunhua Hu and James Zhang and Jinghua Feng
- Abstract要約: 本稿では,最適推論経路を自動的に学習するエンドツーエンドアプローチを提案する。
手動経路設計のコストを削減し、推論の成功量を最大化する。
世界最大の電子決済ビジネスにおいて、この方式の有効性をオフラインで検証し、何百万人ものユーザーに提供するためにオンラインで展開した。
- 参考スコア(独自算出の注目度): 15.145053904330318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic bill payment is an important part of business operations in fintech
companies. The practice of deduction was mainly based on the total amount or
heuristic search by dividing the bill into smaller parts to deduct as much as
possible. This article proposes an end-to-end approach of automatically
learning the optimal deduction paths (deduction amount in order), which reduces
the cost of manual path design and maximizes the amount of successful
deduction. Specifically, in view of the large search space of the paths and the
extreme sparsity of historical successful deduction records, we propose a deep
hierarchical reinforcement learning approach which abstracts the action into a
two-level hierarchical space: an upper agent that determines the number of
steps of deductions each day and a lower agent that decides the amount of
deduction at each step. In such a way, the action space is structured via prior
knowledge and the exploration space is reduced. Moreover, the inherited
information incompleteness of the business makes the environment just partially
observable. To be precise, the deducted amounts indicate merely the lower
bounds of the available account balance. To this end, we formulate the problem
as a partially observable Markov decision problem (POMDP) and employ an
environment correction algorithm based on the characteristics of the business.
In the world's largest electronic payment business, we have verified the
effectiveness of this scheme offline and deployed it online to serve millions
of users.
- Abstract(参考訳): 自動支払いはフィンテック企業における事業運営の重要な部分である。
控除の慣行は、請求書を小さな部分に分けてできるだけ控除することで、総量またはヒューリスティック探索に基づいていた。
本稿は,手動経路設計のコストを低減し,その最大化を図るための最善の推論経路(順番の推論量)を自動的に学習するエンド・ツー・エンドの手法を提案する。
具体的には、経路の広い探索空間と、歴史的に成功した推論記録の極端に広い範囲において、その動作を2段階の階層空間に抽象化する深層階層的強化学習手法を提案する。
このようにして、アクション空間は事前知識を介して構成され、探索空間は減少する。
さらに、ビジネスの継承情報の不完全性は、環境を部分的に監視可能にします。
正確に言うと、控除された金額は、利用可能な口座残高の下限を示している。
そこで我々は,この問題を部分的に観測可能なマルコフ決定問題 (POMDP) として定式化し,ビジネスの特性に基づいた環境補正アルゴリズムを用いる。
世界最大の電子決済ビジネスにおいて、この方式の有効性をオフラインで検証し、何百万人ものユーザーに提供するためにオンラインで展開した。
関連論文リスト
- From approximation error to optimality gap -- Explaining the performance impact of opportunity cost approximation in integrated demand management and vehicle routing [0.0]
本稿では,近似誤差の大きさ,即時の影響,および状態空間の特定の領域におけるそれらの関連性を定量化し,可視化する説明可能性手法を提案する。
本手法を一般のi-DMVRPに適用することにより,アルゴリズム性能の説明に寄与し,アルゴリズムの選択と開発プロセスのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-18T13:46:46Z) - Cost-Aware Query Policies in Active Learning for Efficient Autonomous Robotic Exploration [0.0]
本稿では,動作コストを考慮しつつ,ガウス過程回帰のためのALアルゴリズムを解析する。
距離制約を持つ伝統的な不確実性計量は、軌道距離上のルート平均二乗誤差を最小化する。
論文 参考訳(メタデータ) (2024-10-31T18:35:03Z) - Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。
これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-20T23:00:25Z) - Leveraging Zero-Shot Prompting for Efficient Language Model Distillation [3.4205390087622582]
本稿では, LLMをより小さく, アプリケーション固有のモデルに効率よく蒸留する方法を提案する。
LLMの推論機能を利用してラベルを生成し、ラベルのないデータに対して自然言語の合理性を生成する。
主な貢献は、教師モデルの合理性を引き出すため、ゼロショットの雇用である。
論文 参考訳(メタデータ) (2024-03-23T16:51:52Z) - Attribution Patching Outperforms Automated Circuit Discovery [3.8695554579762814]
帰属パッチに基づく単純な手法が,既存の手法よりも優れていることを示す。
演算サブグラフにおける各エッジの重要性を推定するために、線形近似をアクティベーションパッチに適用する。
論文 参考訳(メタデータ) (2023-10-16T12:34:43Z) - Ideal Abstractions for Decision-Focused Learning [108.15241246054515]
本稿では,決定関連情報の損失を最小限に抑えるために,出力空間を自動的に構成する手法を提案する。
本手法は,ディープニューラルネットワークトレーニングのためのデータ取得と,閉ループ山火事管理タスクの2つの領域で実証する。
論文 参考訳(メタデータ) (2023-03-29T23:31:32Z) - Learning to Incentivize Information Acquisition: Proper Scoring Rules
Meet Principal-Agent Model [64.94131130042275]
インセンティブ付き情報取得問題について検討し、主治官がエージェントを雇って代理情報を収集する。
UCBアルゴリズムをモデルに適合させる,実証可能なサンプル効率の良いアルゴリズムを設計する。
本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。
論文 参考訳(メタデータ) (2023-03-15T13:40:16Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Cost-effective Variational Active Entity Resolution [4.238343046459798]
我々は,人間の関与コストを削減するために,ディープオートエンコーダが付与するロバスト性に基づくエンティティ解決手法を考案した。
具体的には、教師なし表現学習を行うことにより、ディープ・エンティティ・リゾリューション・モデルのトレーニングコストを削減する。
最後に,ディープ・オートエンコーダの利用によって与えられる特性に基づくアクティブ・ラーニング・アプローチにより,トレーニングデータのラベル付けコストを削減した。
論文 参考訳(メタデータ) (2020-11-20T13:47:11Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。