論文の概要: Cryptonite: A Cryptic Crossword Benchmark for Extreme Ambiguity in
Language
- arxiv url: http://arxiv.org/abs/2103.01242v1
- Date: Mon, 1 Mar 2021 19:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 07:52:07.689470
- Title: Cryptonite: A Cryptic Crossword Benchmark for Extreme Ambiguity in
Language
- Title(参考訳): Cryptonite:Cryptic Crossword Benchmark for Extreme Ambiguity in Language
- Authors: Avia Efrat, Uri Shaham, Dan Kilman, Omer Levy
- Abstract要約: 暗号クロスワードに基づく大規模データセットであるCryptoniteを提示する。
Cryptoniteの各例は、暗号的な手がかり、誤解を招く表面読解の短いフレーズまたは文です。
- 参考スコア(独自算出の注目度): 17.841149134006354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current NLP datasets targeting ambiguity can be solved by a native speaker
with relative ease. We present Cryptonite, a large-scale dataset based on
cryptic crosswords, which is both linguistically complex and naturally sourced.
Each example in Cryptonite is a cryptic clue, a short phrase or sentence with a
misleading surface reading, whose solving requires disambiguating semantic,
syntactic, and phonetic wordplays, as well as world knowledge. Cryptic clues
pose a challenge even for experienced solvers, though top-tier experts can
solve them with almost 100% accuracy. Cryptonite is a challenging task for
current models; fine-tuning T5-Large on 470k cryptic clues achieves only 7.6%
accuracy, on par with the accuracy of a rule-based clue solver (8.6%).
- Abstract(参考訳): あいまいさをターゲットとする現在のNLPデータセットは、ネイティブスピーカーによって比較的容易に解決できる。
本稿では,Cryptoniteについて紹介する。Cryptoniteは,言語的に複雑かつ自然にソースされた,暗号クロスワードに基づく大規模データセットである。
Cryptoniteの各例は、暗号的な手がかり、誤解を招く表面読解の短いフレーズまたは文であり、その解決には意味論、構文学、音声学の単語遊びと世界の知識を曖昧にする必要があります。
クリプティックな手がかりは、経験豊富な問題解決者でも問題となるが、トップレベルの専門家は、ほぼ100%の精度で解決できる。
470kの暗号ヒントを微調整したT5-Largeは、ルールベースの手がかり解法(8.6%)の精度と同等に7.6%の精度しか達成していない。
関連論文リスト
- Towards Resolving Word Ambiguity with Word Embeddings [0.4795582035438344]
トランスフォーマーモデルは、複雑なクエリに対する単語のあいまいさを扱うために示されているが、あいまいな単語の識別には使用できない。
本稿では,DBSCANクラスタリングを潜在空間に適用することにより,曖昧な単語を識別し,あいまいさのレベルを評価することができることを示す。
論文 参考訳(メタデータ) (2023-07-25T11:29:55Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Vocabulary-informed Zero-shot and Open-set Learning [128.83517181045815]
本稿では,教師付き,ゼロショット,一般化されたゼロショット,オープンセット認識の問題に対処する語彙インフォームド学習を提案する。
具体的には、(教師なしと教師なしの両方)語彙からの距離制約を取り入れた意味多様体に基づく認識のための重み付けされた最大縁フレームワークを提案する。
得られたモデルは、教師付き、ゼロショット、一般化されたゼロショット、および大きなオープンセット認識の改善を示し、Animal with AttributesとImageNetデータセットで最大310Kの語彙を持つ。
論文 参考訳(メタデータ) (2023-01-03T08:19:22Z) - Cross-Lingual Speaker Identification Using Distant Supervision [84.51121411280134]
本稿では,文脈推論の欠如や言語間一般化の低さといった問題に対処する話者識別フレームワークを提案する。
その結果,2つの英語話者識別ベンチマークにおいて,従来の最先端手法よりも9%の精度,5%の精度で性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-11T20:49:44Z) - Improving End-to-End Contextual Speech Recognition with Fine-grained
Contextual Knowledge Selection [21.116123328330467]
本研究は,微粒な文脈知識選択(FineCoS)による混乱問題の緩和に焦点をあてる。
まず,句候補の範囲を狭めるために句選択を適用し,選択した句候補のトークンにトークンの注意を向ける。
我々は、より焦点を絞ったフレーズレベルの文脈表現を得るために、最も関連性の高いフレーズの注意重みを再正規化する。
論文 参考訳(メタデータ) (2022-01-30T13:08:16Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Non-Parametric Few-Shot Learning for Word Sense Disambiguation [11.175893018731712]
MetricWSDは、このデータアンバランス問題を緩和するための非パラメトリックな数ショット学習アプローチです。
MetricWSDは、ある単語の感覚間の距離を計算することを学ぶことで、高周波の単語から頻繁な単語に知識を伝達する。
論文 参考訳(メタデータ) (2021-04-26T16:08:46Z) - Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as
a Target for NLP [5.447716844779342]
クリプティック・クロスワード(Cryptic crosswords)は、イギリスにおける英語を話すクロスワードである。
ベンチマークとして使用可能な暗号クロスワードヒントのデータセットを提示し,それらを解決するためにシーケンス・ツー・シーケンスモデルをトレーニングする。
新たなカリキュラム学習手法により,性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-04-17T18:54:00Z) - Speakers Fill Lexical Semantic Gaps with Context [69.30534067031734]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z) - Research on Annotation Rules and Recognition Algorithm Based on Phrase
Window [4.334276223622026]
フレーズウィンドウに基づくラベリングルールを提案し,それに対応するフレーズ認識アルゴリズムを設計する。
ラベル付けルールでは、フレーズを最小単位とし、文を7種類のネスト可能なフレーズタイプに分割し、フレーズ間の文法的依存関係を示す。
対応するアルゴリズムは、画像中の対象領域を識別するアイデアに基づいて、文中の様々なフレーズの開始位置と終了位置を見つけることができる。
論文 参考訳(メタデータ) (2020-07-07T00:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。