論文の概要: Improve Sentence Alignment by Divide-and-conquer
- arxiv url: http://arxiv.org/abs/2201.06907v1
- Date: Tue, 18 Jan 2022 12:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 13:40:05.753019
- Title: Improve Sentence Alignment by Divide-and-conquer
- Title(参考訳): 分詞変換による文のアライメントの改善
- Authors: Wu Zhang
- Abstract要約: 本稿では,文のアライメント速度を改善するための分割・コンカレントアルゴリズムを提案する。
我々は外部のバイリンガル文の埋め込みを用いて、並列テキストが整列する正確なハードを見つける。
私たちのアルゴリズムは実際にVecalignよりも高速です。
- 参考スコア(独自算出の注目度): 1.431550176075561
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we introduce a divide-and-conquer algorithm to improve
sentence alignment speed. We utilize external bilingual sentence embeddings to
find accurate hard delimiters for the parallel texts to be aligned. We use
Monte Carlo simulation to show experimentally that using this
divide-and-conquer algorithm, we can turn any quadratic time complexity
sentence alignment algorithm into an algorithm with average time complexity of
O(NlogN). On a standard OCR-generated dataset, our method improves the
Bleualign baseline by 3 F1 points. Besides, when computational resources are
restricted, our algorithm is faster than Vecalign in practice.
- Abstract(参考訳): 本稿では,文のアライメントを高速化する分割・コンカレントアルゴリズムを提案する。
我々は、外部のバイリンガル文の埋め込みを利用して、並列テキストをアライメントするための正確なハードデミッタを見つける。
我々はモンテカルロシミュレーションを用いて、この分割・対数アルゴリズムを用いて、任意の二次時間複雑文アライメントアルゴリズムを平均時間複雑度O(NlogN)のアルゴリズムに変換することを実験的に示す。
標準的なOCR生成データセットでは,Bleualignベースラインを3F1ポイント改善する。
さらに、計算資源が制限される場合、アルゴリズムは実際にはvecalignよりも高速である。
関連論文リスト
- Replicable Learning of Large-Margin Halfspaces [46.91303295440005]
我々は,大マージンハーフスペースを学習する問題に対して,効率的なアルゴリズムを提供する。
Impagliazzo, Lei, Pitassi, Sorrellによるアルゴリズム [STOC 2022] の改良を行った。
論文 参考訳(メタデータ) (2024-02-21T15:06:51Z) - Efficient distributed representations with linear-time attention scores normalization [3.8673630752805437]
本研究では,有界ノルムを持つ埋め込みベクトルに対するアテンションスコア正規化定数の線形時間近似を提案する。
推定公式の精度は、競合するカーネルメソッドを桁違いに上回る。
提案アルゴリズムは高度に解釈可能であり,任意の埋め込み問題に容易に適応できる。
論文 参考訳(メタデータ) (2023-03-30T15:48:26Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - Fast Parallel Algorithms for Euclidean Minimum Spanning Tree and
Hierarchical Spatial Clustering [6.4805900740861]
HDBSCAN$*$のための私達のアルゴリズムの仕事そしてスペースを減らすために十分分離の新しい概念を導入します。
我々のアルゴリズムは理論的に効率的であることを示す: 彼らは逐次対応の作業(操作数)と多対数深さ(並列時間)を持っている。
48コアマシンを用いた大規模実世界および合成データセットの実験により、我々の最速のアルゴリズムは11.13-55.89x、既存の並列アルゴリズムを少なくとも桁違いに上回った。
論文 参考訳(メタデータ) (2021-04-02T16:05:00Z) - Linear Bandit Algorithms with Sublinear Time Complexity [67.21046514005029]
既存の線形バンディットアルゴリズムを高速化し,arms $k$ でステップ毎の複雑性サブリニアを実現する。
提案するアルゴリズムは、いくつかの$alpha(t) > 0$ と $widetilde o(stt)$ regret に対して1ステップあたり$o(k1-alpha(t))$ の複雑さを達成することができる。
論文 参考訳(メタデータ) (2021-03-03T22:42:15Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z) - Accelerating Feedforward Computation via Parallel Nonlinear Equation
Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。
本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。
提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文 参考訳(メタデータ) (2020-02-10T10:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。