論文の概要: Uncertainty Measures in Neural Belief Tracking and the Effects on
Dialogue Policy Performance
- arxiv url: http://arxiv.org/abs/2109.04349v1
- Date: Thu, 9 Sep 2021 15:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:17:50.797752
- Title: Uncertainty Measures in Neural Belief Tracking and the Effects on
Dialogue Policy Performance
- Title(参考訳): ニューラル信条追跡における不確実性対策と対話政策性能への影響
- Authors: Carel van Niekerk, Andrey Malinin, Christian Geishauser, Michael Heck,
Hsien-chin Lin, Nurul Lubis, Shutong Feng, Milica Ga\v{s}i\'c
- Abstract要約: 本稿では,ニューラル信念追跡における不確実性の評価手法を提案する。
これらの措置が政策最適化の下流課題に与える影響を評価する。
ヒトとシミュレートされたユーザの結果は、これらの指標を取り入れることで、下流の対話ポリシーの性能と堅牢性の両方が改善されることを示している。
- 参考スコア(独自算出の注目度): 9.336563795700773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to identify and resolve uncertainty is crucial for the robustness
of a dialogue system. Indeed, this has been confirmed empirically on systems
that utilise Bayesian approaches to dialogue belief tracking. However, such
systems consider only confidence estimates and have difficulty scaling to more
complex settings. Neural dialogue systems, on the other hand, rarely take
uncertainties into account. They are therefore overconfident in their decisions
and less robust. Moreover, the performance of the tracking task is often
evaluated in isolation, without consideration of its effect on the downstream
policy optimisation. We propose the use of different uncertainty measures in
neural belief tracking. The effects of these measures on the downstream task of
policy optimisation are evaluated by adding selected measures of uncertainty to
the feature space of the policy and training policies through interaction with
a user simulator. Both human and simulated user results show that incorporating
these measures leads to improvements both of the performance and of the
robustness of the downstream dialogue policy. This highlights the importance of
developing neural dialogue belief trackers that take uncertainty into account.
- Abstract(参考訳): 不確実性を特定し解決する能力は対話システムの堅牢性に不可欠である。
実際、これはバイーシアンアプローチを利用した対話的信念追跡システムで実証的に確認されている。
しかし、これらのシステムは信頼度のみを考慮し、より複雑な設定へのスケーリングが困難である。
一方,ニューラル対話システムは,不確実性を考慮したものはほとんどない。
したがって、彼らは決定を過信しており、堅牢ではない。
さらに、下流政策最適化への影響を考慮せずに、追跡タスクの性能を独立して評価することが多い。
本稿では,神経信念追跡における異なる不確実性尺度の使用を提案する。
これらの措置が政策最適化の下流課題に与える影響を、ユーザシミュレータとのインタラクションを通じて、方針の特徴空間に不確実性尺度を付加して評価する。
ヒトとシミュレートされたユーザの結果は、これらの指標を取り入れることで、下流の対話ポリシーの性能と堅牢性の両方が改善されることを示している。
これは不確実性を考慮したニューラル対話信念追跡器の開発の重要性を強調している。
関連論文リスト
- Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Accounting for Sycophancy in Language Model Uncertainty Estimation [28.08509288774144]
梅毒率と不確実性評価との関係を初めて検討した。
ユーザの信頼感は,梅毒の影響を調節する上で重要な役割を担っていることを示す。
モデルとユーザの不確実性の両方を外部化することは、梅毒のバイアスの影響を軽減するのに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T18:00:25Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - Architectural patterns for handling runtime uncertainty of data-driven
models in safety-critical perception [1.7616042687330642]
不確実性推定に対処するためのアーキテクチャパターンを新たに提案する。
安全性と性能向上に関して,4つのパターンを質的,定量的に評価した。
筆者らは,運転状況の文脈情報を考慮することで,運転状況の固有のリスクに応じて,多かれ少なかれ不確実性を受け入れることができると結論付けた。
論文 参考訳(メタデータ) (2022-06-14T13:31:36Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - An Uncertainty-based Human-in-the-loop System for Industrial Tool Wear
Analysis [68.8204255655161]
人間のループシステムにおけるモンテカルロのドロップアウトに基づく不確実性対策により,システムの透明性と性能が向上することを示す。
シミュレーション研究により、不確実性に基づく「ループ内人間システム」は、様々なレベルの人間の関与に対する性能を高めることが示されている。
論文 参考訳(メタデータ) (2020-07-14T15:47:37Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Off-policy Policy Evaluation For Sequential Decisions Under Unobserved
Confounding [33.58862183373374]
観測不能条件下でのOPE手法のロバスト性を評価する。
また,OPE法に偏りが強い場合も少ないことが示唆された。
最悪ケース境界の計算に有効な損失最小化手法を提案する。
論文 参考訳(メタデータ) (2020-03-12T05:20:37Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。