論文の概要: Algorithme de recherche approximative dans un dictionnaire fond\'e sur
une distance d'\'edition d\'efinie par blocs
- arxiv url: http://arxiv.org/abs/2109.00624v1
- Date: Wed, 1 Sep 2021 21:36:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 05:07:52.080386
- Title: Algorithme de recherche approximative dans un dictionnaire fond\'e sur
une distance d'\'edition d\'efinie par blocs
- Title(参考訳): 連星間距離の近似に関するアルゴリズム
- Authors: Pascal Vaillant
- Abstract要約: そこで本研究では,修正文字列が参照形式にマッチする近似辞書検索アルゴリズムを提案する。
このアルゴリズムは、文字列間の分岐関数を利用する。
検索文字列までの距離が一定の閾値以下である辞書エントリを見つける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose an algorithm for approximative dictionary lookup, where altered
strings are matched against reference forms. The algorithm makes use of a
divergence function between strings -- broadly belonging to the family of edit
distances; it finds dictionary entries whose distance to the search string is
below a certain threshold. The divergence function is not the classical edit
distance (DL distance); it is adaptable to a particular corpus, and is based on
elementary alteration costs defined on character blocks, rather than on
individual characters.
Nous proposons un algorithme de recherche approximative de cha\^ines dans un
dictionnaire \`a partir de formes alt\'er\'ees. Cet algorithme est fond\'e sur
une fonction de divergence entre cha\^ines~ -- une sorte de distance
d'\'edition: il recherche des entr\'ees pour lesquelles la distance \`a la
cha\^ine cherch\'ee est inf\'erieure \`a un certain seuil. La fonction
utilis\'ee n'est pas la distance d'\'edition classique (distance DL); elle est
adapt\'ee \`a un corpus, et se fonde sur la prise en compte de co\^uts
d'alt\'eration \'el\'ementaires d\'efinis non pas sur des caract\`eres, mais
sur des sous-cha\^ines (des blocs de caract\`eres).
- Abstract(参考訳): 本稿では,変更文字列を参照形式にマッチさせる近似辞書検索アルゴリズムを提案する。
このアルゴリズムは、文字列間の分岐関数(編集距離の族に属する)を利用し、検索文字列までの距離が一定の閾値以下である辞書エントリを見つける。
分散関数は古典的な編集距離(DL距離)ではなく、特定のコーパスに適用可能であり、個々の文字ではなく、文字ブロックに定義された基本的な変更コストに基づいている。
nous proposons un algorithme de recherche approximative de cha\^ines dans un dictionnaire \`a partir de formes alt\'er\'ees.
cet algorithme est fond\e sur une fonction de divergence entre cha\^ines~ -- une sorte de distance d'\'edition: il recherche des entr\'ees pour lesquelles la distance \`a la cha\^ine cherch\'ee est inf\'erieure \`a un certain seuil
La fonction utilis\'ee n'est pas la distance d'\edition classique (distance DL); elle est adapt\'ee \`a un corpus, et se fonde sur la prise en compte de co\uts d'alt\'eration \'el\'ementaires d\'efinis non pas sur des caract\`eres, mais sur des sous-cha\^ines (des blocs de caract\`eres)。
関連論文リスト
- string2string: A Modern Python Library for String-to-String Algorithms [24.167017445129105]
string2stringは、文字列から文字列への問題に対する効率的なアルゴリズムの包括的なスイートを提供するオープンソースライブラリである。
これには、文字列アライメント、距離測定、語彙と意味探索、類似性解析といった様々な問題に対処する、従来のアルゴリズムによる解や、最近の先進的なニューラルアプローチが含まれる。
Pythonで実装されており、ip経由で簡単にインストールでき、シンプルなAPI経由でアクセスできる。
論文 参考訳(メタデータ) (2023-04-27T17:57:19Z) - On the Interplay Between Misspecification and Sub-optimality Gap in
Linear Contextual Bandits [76.2262680277608]
本研究では,線形関数クラスによって期待される報酬関数を近似できるような,不特定条件下での線形文脈帯域について検討する。
このアルゴリズムは, 対数的因子に比例した設定において, ギャップ依存の残差が$tilde O (d2/Delta)$と同じであることを示す。
論文 参考訳(メタデータ) (2023-03-16T15:24:29Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Neural String Edit Distance [77.72325513792981]
文字列対分類とシーケンス生成のためのニューラルストリング編集距離モデルを提案する。
オリジナルの期待最大化学習編集距離アルゴリズムを微分可能な損失関数に変更します。
ひとつのフレームワークでパフォーマンスと解釈性をトレードオフできることを示します。
論文 参考訳(メタデータ) (2021-04-16T22:16:47Z) - Imagined-Trailing-Whitespace-Agnostic Levenshtein Distance For Plaintext
Table Detection [0.0]
Levenshtein 距離は後続の空白を他の文字や記号と同じ扱います。
人間が2つの文字列を比較するとき、両方の文字列は無限の後続の空白でパッドされていると暗黙的に仮定する。
この期待に反すると、直感的な編集距離値が得られません。
論文 参考訳(メタデータ) (2021-03-11T20:39:40Z) - Fixing Errors of the Google Voice Recognizer through Phonetic Distance
Metrics [0.0]
本稿では,音素のLevenshtein距離を用いて音声認識者の誤りを低減するアルゴリズムを提案する。
特定のドメイン向けに設計されているにもかかわらず、ここで提案されるアルゴリズムは一般的な応用である。
論文 参考訳(メタデータ) (2021-02-18T23:54:59Z) - UWB @ DIACR-Ita: Lexical Semantic Change Detection with CCA and
Orthogonal Transformation [1.3764085113103222]
本稿では,DIACR-Ita共有タスクの語彙的意味変化(単語感覚変化)を検出する手法について述べる。
異なる期間から選択された2つのイタリア語コーパスにおける特定の単語間の意味的差異について検討した。
論文 参考訳(メタデータ) (2020-11-30T10:41:50Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Wasserstein Distance Regularized Sequence Representation for Text
Matching in Asymmetrical Domains [51.91456788949489]
WD-Matchと呼ばれる非対称領域におけるテキストマッチングに適した新しいマッチング手法を提案する。
WD-Matchでは、ワッサーシュタイン距離に基づく正規化器が定義され、異なる領域から投影される特徴ベクトルを正規化する。
WD-Matchのトレーニングプロセスは、ワッサースタイン距離によって正規化されるマッチング損失を最小限に抑えるゲームに相当する。
論文 参考訳(メタデータ) (2020-10-15T12:52:09Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。