論文の概要: Hierarchical Context Tagging for Utterance Rewriting
- arxiv url: http://arxiv.org/abs/2206.11218v1
- Date: Wed, 22 Jun 2022 17:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 16:49:08.488530
- Title: Hierarchical Context Tagging for Utterance Rewriting
- Title(参考訳): 発話書き換えのための階層的コンテキストタギング
- Authors: Lisa Jin, Linfeng Song, Lifeng Jin, Dong Yu, Daniel Gildea
- Abstract要約: 配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
- 参考スコア(独自算出の注目度): 51.251400047377324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utterance rewriting aims to recover coreferences and omitted information from
the latest turn of a multi-turn dialogue. Recently, methods that tag rather
than linearly generate sequences have proven stronger in both in- and
out-of-domain rewriting settings. This is due to a tagger's smaller search
space as it can only copy tokens from the dialogue context. However, these
methods may suffer from low coverage when phrases that must be added to a
source utterance cannot be covered by a single context span. This can occur in
languages like English that introduce tokens such as prepositions into the
rewrite for grammaticality. We propose a hierarchical context tagger (HCT) that
mitigates this issue by predicting slotted rules (e.g., "besides_") whose slots
are later filled with context spans. HCT (i) tags the source string with
token-level edit actions and slotted rules and (ii) fills in the resulting rule
slots with spans from the dialogue context. This rule tagging allows HCT to add
out-of-context tokens and multiple spans at once; we further cluster the rules
to truncate the long tail of the rule distribution. Experiments on several
benchmarks show that HCT can outperform state-of-the-art rewriting systems by
~2 BLEU points.
- Abstract(参考訳): 発話書き直しは、マルチターン対話の最新のターンからコア参照と省略された情報を復元することを目的としている。
近年、ドメイン内および外部の書き直し設定において、配列を線形に生成するよりもタグ付けする方が強いことが証明されている。
これは、対話コンテキストからトークンをコピーすることしかできないため、タグの検索スペースが小さいためである。
しかしながら、ソース発話に追加しなければならないフレーズが単一のコンテキストスパンでカバーできない場合、これらのメソッドはカバレッジの低下に苦しむ可能性がある。
これは英語のような言語で起こり、文法性の書き直しに前置詞などのトークンを導入する。
本稿では,スロットが後にコンテキストスパンで満たされたスロット付きルール(例えば "besides_" など)を予測することで,この問題を緩和する階層型コンテキストタグ (HCT) を提案する。
HCT
(i)ソース文字列にトークンレベルの編集アクションとスロットされたルールをタグ付けする。
(ii)対話コンテキストのスパンで、結果のルールスロットを埋めます。
このルールタグ付けにより、HCTはアウト・オブ・コンテクストトークンと複数のスパンを同時に追加することができます。
いくつかのベンチマーク実験により、HCTは最先端の書き換えシステムよりも2 BLEU点の方が優れていることが示されている。
関連論文リスト
- Partial Scene Text Retrieval [56.14891109413448]
部分的なシーンテキスト検索のタスクは、画像ギャラリーから与えられたクエリテキストと同一または類似のテキストインスタンスをローカライズして検索することである。
既存のメソッドはテキストラインインスタンスのみを扱うことができ、部分パッチの検索は未解決のままである。
テキストラインインスタンスと部分パッチの両方を同時に検索できるネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-15T15:08:04Z) - Contextualized Automatic Speech Recognition with Dynamic Vocabulary [41.892863381787684]
本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。
バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。
実験の結果,提案手法は英語と日本語のデータセットにおけるバイアスフレーズWERを3.1~4.9ポイント改善することがわかった。
論文 参考訳(メタデータ) (2024-05-22T05:03:39Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Improving Cross-Lingual Transfer through Subtree-Aware Word Reordering [17.166996956587155]
効果的な言語間移動の障害の1つは、単語順パターンにおける可変性である。
ユニバーサル依存の観点で定義した,新しい強力なリオーダー手法を提案する。
提案手法は,異なる言語ペアとモデルアーキテクチャに対して,強いベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-10-20T15:25:53Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Lexicon-injected Semantic Parsing for Task-Oriented Dialog [31.42253032456493]
本稿では,木表現のスロットラベルをレキシコンとして収集し,木ノードのスパン表現に語彙的特徴を注入する新規なレキシコン意味注入法を提案する。
我々の最良の結果はTOPデータセット上で新しい最先端結果(87.62%)を生成し、実際のタスク指向ダイアログにおける頻繁な更新スロット辞書エントリへの適応性を示す。
論文 参考訳(メタデータ) (2022-11-26T07:59:20Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。