論文の概要: Cryptonite: A Cryptic Crossword Benchmark for Extreme Ambiguity in
Language
- arxiv url: http://arxiv.org/abs/2103.01242v1
- Date: Mon, 1 Mar 2021 19:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 07:52:07.689470
- Title: Cryptonite: A Cryptic Crossword Benchmark for Extreme Ambiguity in
Language
- Title(参考訳): Cryptonite:Cryptic Crossword Benchmark for Extreme Ambiguity in Language
- Authors: Avia Efrat, Uri Shaham, Dan Kilman, Omer Levy
- Abstract要約: 暗号クロスワードに基づく大規模データセットであるCryptoniteを提示する。
Cryptoniteの各例は、暗号的な手がかり、誤解を招く表面読解の短いフレーズまたは文です。
- 参考スコア(独自算出の注目度): 17.841149134006354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current NLP datasets targeting ambiguity can be solved by a native speaker
with relative ease. We present Cryptonite, a large-scale dataset based on
cryptic crosswords, which is both linguistically complex and naturally sourced.
Each example in Cryptonite is a cryptic clue, a short phrase or sentence with a
misleading surface reading, whose solving requires disambiguating semantic,
syntactic, and phonetic wordplays, as well as world knowledge. Cryptic clues
pose a challenge even for experienced solvers, though top-tier experts can
solve them with almost 100% accuracy. Cryptonite is a challenging task for
current models; fine-tuning T5-Large on 470k cryptic clues achieves only 7.6%
accuracy, on par with the accuracy of a rule-based clue solver (8.6%).
- Abstract(参考訳): あいまいさをターゲットとする現在のNLPデータセットは、ネイティブスピーカーによって比較的容易に解決できる。
本稿では,Cryptoniteについて紹介する。Cryptoniteは,言語的に複雑かつ自然にソースされた,暗号クロスワードに基づく大規模データセットである。
Cryptoniteの各例は、暗号的な手がかり、誤解を招く表面読解の短いフレーズまたは文であり、その解決には意味論、構文学、音声学の単語遊びと世界の知識を曖昧にする必要があります。
クリプティックな手がかりは、経験豊富な問題解決者でも問題となるが、トップレベルの専門家は、ほぼ100%の精度で解決できる。
470kの暗号ヒントを微調整したT5-Largeは、ルールベースの手がかり解法(8.6%)の精度と同等に7.6%の精度しか達成していない。
関連論文リスト
- Cross-lingual paraphrase identification [0.0]
複数の言語にまたがるハードパラフレーズを検出するために,両エンコーダモデルを対照的に訓練する。
私たちのパフォーマンスは最先端のクロスエンコーダに匹敵します。
論文 参考訳(メタデータ) (2024-06-21T11:37:24Z) - Language Models are Crossword Solvers [1.53744306569115]
我々は大言語モデル(LLM)を用いたクロスワードの解法に挑戦する。
我々は,現在の最先端技術(SoTA)言語モデルが,暗号的クロスワードの手がかりを解読する能力を示すことを示した。
また,LLMを用いて全クロスワードグリッドを解く問題に対処するために,この性能を生かした探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-06-13T12:29:27Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Towards Resolving Word Ambiguity with Word Embeddings [0.4795582035438344]
トランスフォーマーモデルは、複雑なクエリに対する単語のあいまいさを扱うために示されているが、あいまいな単語の識別には使用できない。
本稿では,DBSCANクラスタリングを潜在空間に適用することにより,曖昧な単語を識別し,あいまいさのレベルを評価することができることを示す。
論文 参考訳(メタデータ) (2023-07-25T11:29:55Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as
a Target for NLP [5.447716844779342]
クリプティック・クロスワード(Cryptic crosswords)は、イギリスにおける英語を話すクロスワードである。
ベンチマークとして使用可能な暗号クロスワードヒントのデータセットを提示し,それらを解決するためにシーケンス・ツー・シーケンスモデルをトレーニングする。
新たなカリキュラム学習手法により,性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-04-17T18:54:00Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。