論文の概要: Idiomify -- Building a Collocation-supplemented Reverse Dictionary of
English Idioms with Word2Vec for non-native learners
- arxiv url: http://arxiv.org/abs/2204.05634v1
- Date: Tue, 12 Apr 2022 08:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 21:38:44.576558
- Title: Idiomify -- Building a Collocation-supplemented Reverse Dictionary of
English Idioms with Word2Vec for non-native learners
- Title(参考訳): Idiomify --非ネイティブ学習者のためのWord2Vecを用いた英語イディオムのコロケーション補足逆辞書の構築
- Authors: Eu-Bin Kim
- Abstract要約: イディオミフィケーションの目的は、英語の非ネイティブ学習者のために、コロケーション補充によるイディオミの逆辞書を構築することである。
逆辞書は、非ネイティブがオンデマンドでイディオムを探索するのに役立ち、コロケーションはより適切にイディオムを使用することをガイドできるため、そうすることを目指している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The aim of idiomify is to build a collocation-supplemented reverse dictionary
of idioms for the non-native learners of English. We aim to do so because the
reverse dictionary could help the non-natives explore idioms on demand, and the
collocations could also guide them on using idioms more adequately. The
cornerstone of the project is a reliable way of mining idioms from corpora,
which is however a challenge because idioms extensively vary in forms. We
tackle this by automatically deriving matching rules from their base forms. We
use Point-wise Mutual Inclusion (PMI), Term Frequency - Inverse Document
Frequency (TF-IDF) to model collocations, since both of them are popular metric
for pairwise significance. We also try Term Frequency (TF) as the baseline
model. As for implementing the reverse-dictionary, three approaches could be
taken: inverted index, graphs and distributional semantics. We choose to take
the last approach and implement the reverse dictionary with Word2Vec, because
it is the most flexible approach of all and Word2Vec is a simple yet strong
baseline. Evaluating the methods has revealed rooms for improvement. We learn
that we can better identify idioms with the help of slop, wildcard and
reordering techniques. We also learn that we can get the best of both PMI and
TF-IDF if we use machine learning to find the sweet spot. Lastly, We learn that
Idiomify could be further improved with a mixture of inverted index and
distributional semantics approach. The limits aside, the proposed methods are
feasible, and their benefits to the non-natives are apparent, which therefore
can be used to aid the non-natives in acquiring English idioms.
- Abstract(参考訳): idiomifyの目的は、英語の非ネイティブ学習者のための、コロケーションによる逆イディオム辞書を構築することである。
私たちは、逆辞書が非ネイティブの人々がオンデマンドでイディオムを探索するのに役立ちますし、コロケーションもイディオムの使用をより適切に導くことができます。
プロジェクトの基礎は、コーパスからイディオムを採掘する信頼性の高い方法である。
我々は、マッチングルールを基本形式から自動的に導出することにより、これに取り組む。
我々は,コロケーションのモデル化にpoint-wise mutual inclusion (pmi), term frequency - inverse document frequency (tf-idf) を用いる。
また、ベースラインモデルとしてTF(Term Frequency)を試みます。
逆辞書の実装については、逆インデックス、グラフ、分布意味論の3つのアプローチが考えられる。
最後のアプローチを選択して、Word2Vecで逆辞書を実装する。なぜなら、Word2Vecは最も柔軟なアプローチであり、Word2Vecはシンプルだが強力なベースラインであるからである。
方法を評価することで改善の余地が明らかになった。
slop、wildcard、reordering techniqueの助けを借りて、イディオムをよりよく識別できることを学びました。
また、マシンラーニングを使用してスイートスポットを見つけることで、PMIとTF-IDFの両方のメリットを享受できることも学べます。
最後に,inverted index と distributional semantics のアプローチを組み合わせることで idiomify をさらに改善できることがわかった。
制限はさておき、提案手法は実現可能であり、非ネイティブに対するその利点は明らかであり、それゆえ、非ネイティブが英語のイディオムを取得するのを助けるために使用できる。
関連論文リスト
- Improving LLM Abilities in Idiomatic Translation [0.0]
NLLBやGPTのような言語モデル(LLM)では、イディオムの翻訳は依然として難しい課題である。
我々のゴールは、慣用的な言語のLLM処理を改善することで、翻訳の忠実度を高めることである。
文化的なニュアンスを維持し、翻訳されたテキストが意図と感情の共鳴を維持することを保証するため、これは大きな社会的影響を持つ。
論文 参考訳(メタデータ) (2024-07-03T21:34:26Z) - Presence or Absence: Are Unknown Word Usages in Dictionaries? [6.185216877366987]
我々は,フィンランド語,ロシア語,ドイツ語の共用課題であるAXOLOTL-24の評価を行った。
未知の単語使用量と辞書エントリ間のマッピングを予測するために,グラフベースのクラスタリング手法を用いる。
私たちのシステムはフィンランド語とドイツ語で第1位、ロシア語で第2位、Subtask 2テストフェーズのリーダーボードで第2位にランクインします。
論文 参考訳(メタデータ) (2024-06-02T07:57:45Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - WordAlchemy: A transformer-based Reverse Dictionary [0.0]
インド語をサポートするオープンソースのクロスランガル逆辞書システムを提案する。
このアーキテクチャは、従来の BERT の Masked Language Modeling (MLM) 技術ではなく、Translation Language Modeling (TLM) 技術を使用している。
論文 参考訳(メタデータ) (2022-04-16T11:41:48Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Exact Sparse Orthogonal Dictionary Learning [8.577876545575828]
提案手法は,過剰な辞書に基づく学習方法よりも,より難解な結果が得られることが判明した。
我々の方法には高効率の利点が加わった。
論文 参考訳(メタデータ) (2021-03-14T07:51:32Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Classification of Chinese Handwritten Numbers with Labeled Projective
Dictionary Pair Learning [1.8594711725515674]
我々は,識別可能性,空間性,分類誤差の3つの要因を取り入れたクラス固有辞書を設計する。
我々は、辞書原子を生成するために、新しい特徴空間、すなわち、向き付け勾配(HOG)のヒストグラムを採用する。
その結果,最先端のディープラーニング技術と比較して,分類性能が向上した(sim98%)。
論文 参考訳(メタデータ) (2020-03-26T01:43:59Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。