論文の概要: Arithmetics-Based Decomposition of Numeral Words -- Arithmetic
Conditions give the Unpacking Strategy
- arxiv url: http://arxiv.org/abs/2312.10097v1
- Date: Thu, 14 Dec 2023 17:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-19 18:50:09.910477
- Title: Arithmetics-Based Decomposition of Numeral Words -- Arithmetic
Conditions give the Unpacking Strategy
- Title(参考訳): 算術に基づく数字単語の分解 ---アンパック戦略を与える算術条件
- Authors: Isidor Konrad Maier, Matthias Wolff
- Abstract要約: 本稿ではHurford's Packing Strategyを復号するために設計された新しい数値分解器を提案する。
Packing Strategy(パッケージ戦略)は、再帰によって小さな数語から数語がどのように形成されるかのモデルである。
我々は254種類の自然言語の数値システムでデコンポザを検証した。
- 参考スコア(独自算出の注目度): 0.609170287691728
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper we present a novel numeral decomposer that is designed to
revert Hurford's Packing Strategy. The Packing Strategy is a model on how
numeral words are formed out of smaller numeral words by recursion. The
decomposer does not simply check decimal digits but it also works for numerals
formed on base 20 or any other base or even combinations of different bases.
All assumptions that we use are justified with Hurford's Packing Strategy. The
decomposer reads through the numeral. When it finds a sub-numeral, it checks
arithmetic conditions to decide whether or not to unpack the sub-numeral. The
goal is to unpack those numerals that can sensibly be substituted by similar
numerals. E.g., in 'twenty-seven thousand and two hundred and six' it should
unpack 'twenty-seven' and 'two hundred and six', as those could each be
sensibly replaced by any numeral from 1 to 999. Our most used condition is: If
S is a substitutable sub-numeral of a numeral N, then 2*value(S) < value(N). We
have tested the decomposer on numeral systems in 254 different natural
languages. We also developed a reinforcement learning algorithm based on the
decomposer. Both algorithms' code and the results are open source on GitHub.
- Abstract(参考訳): 本稿では,Hurford's Packing Strategyを復号する新しい数値分解器を提案する。
Packing Strategyは、再帰によってより小さな数語から数語が形成される方法のモデルである。
分解器は単に十進数をチェックするだけでなく、ベース20または他のベースまたは異なるベースの組み合わせで形成される数字に対しても機能する。
私たちが使用する仮定はすべて、hurfordのパッキング戦略によって正当化されます。
分解器は数字を読みます。
サブ数値が見つかると、算術条件をチェックし、サブ数値をアンパックするかどうかを判断する。
目標は、類似の数字に置き換えられるような数字を解き放つことです。
例えば「20,7,200,6」では、「20,7」と「200,6」を解き放ち、それぞれが1から999までの任意の数字に置き換えられる。
我々の最もよく用いられる条件は次の通りである: S が数値 N の置換可能部分数であれば、2*value(S) < value(N) である。
我々は254の異なる自然言語で数値システム上で分解器をテストした。
また,分解器に基づく強化学習アルゴリズムを開発した。
アルゴリズムのコードと結果の両方がgithubで公開されている。
関連論文リスト
- Primender Sequence: A Novel Mathematical Construct for Testing Symbolic Inference and AI Reasoning [0.0]
素数列(英: Primender sequence)は、古典的な素数列とモジュラーディジットに基づく条件を組み合わせた新しい整数列である。
本稿では,大規模言語モデルの記号的推論能力を評価するためのベンチマークとして,このシーケンスを提案する。
論文 参考訳(メタデータ) (2025-06-12T11:21:58Z) - A Summation-Based Algorithm For Integer Factorization [0.0]
本稿では,整数を基底2の和に変換する新しい手法を提案する。
現代の暗号、特にRSA暗号のセキュリティにおいて重要な役割を果たす。
論文 参考訳(メタデータ) (2025-04-29T20:35:43Z) - FoNE: Precise Single-Token Number Embeddings via Fourier Features [51.17846016593835]
本稿では,数値をFourierの特徴を持つ埋め込み空間にマッピングする新しい手法を提案する。
FoNEは各数値を1桁に2つの埋め込み次元しか持たない単一のトークンとしてエンコードし、フラグメンテーションなしで数値を効果的にキャプチャする。
6桁の10進法では、FoNEはサブワードや桁の埋め込みよりも99%の精度を達成するために64$times$少ないデータを必要とする。
FoNEは、加算、減算、乗算の10万以上の試験例で100%精度を得る唯一の方法である。
論文 参考訳(メタデータ) (2025-02-13T19:54:59Z) - Space-Efficient Quantum Error Reduction without log Factors [50.10645865330582]
本稿では,多数決のランダムウォーク解釈に類似したライン上の重み付けウォークとして理解可能な,新たに単純化された浄化器の構成を提案する。
我々の浄化器は、前者よりも指数関数的に空間の複雑さが良く、精製されるアルゴリズムの音質-完全性ギャップに四分法的に依存している。
論文 参考訳(メタデータ) (2025-02-13T12:04:39Z) - Quantum inspired factorization up to 100-bit RSA number in polynomial time [0.0]
我々はシュノーアの数学的枠組みに基づくRSA因子化ビルディングを攻撃した。
我々は、量子システムにおける最適化問題を符号化する最大256ビットのRSA数を分解する。
結果は現在の通信インフラのセキュリティを損なうものではない。
論文 参考訳(メタデータ) (2024-10-21T18:00:00Z) - Scaling Behavior for Large Language Models regarding Numeral Systems: An Example using Pythia [55.23627698804683]
本研究では, 変圧器を用いた大規模言語モデルを用いて, 異なる数値システムのスケーリング挙動について検討する。
ベース10ドルシステムは、トレーニングデータスケール全体で、ベース102ドルまたは103ドルよりも一貫してデータ効率が高い。
私たちは、トークンレベルの識別とトークンレベルの操作に苦労する、ベース100ドルとベース1,000ドルのシステムを特定します。
論文 参考訳(メタデータ) (2024-09-25T22:08:31Z) - Incremental Context-free Grammar Inference in Black Box Settings [17.601446198181048]
ブラックボックスの文脈自由文法推論は多くの実践的な設定において重要な課題である。
そこで本研究では,サンプル文字列をより小さな単位に分割し,文法を漸進的に推論する手法を提案する。
我々の手法であるKedavraは、より優れた文法品質(精度とリコールの強化)、より高速な実行、経験的比較による可読性の向上を実証した。
論文 参考訳(メタデータ) (2024-08-29T17:00:38Z) - Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。
我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文 参考訳(メタデータ) (2024-07-25T16:13:58Z) - How to Leverage Digit Embeddings to Represent Numbers? [13.880400817682059]
1+2の代わりに100+200を解くような一般化は、モデルの性能に大きく影響する。
数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。
我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文 参考訳(メタデータ) (2024-07-01T01:31:41Z) - Unconditional correctness of recent quantum algorithms for factoring and computing discrete logarithms [0.0]
2023年、レジチェフはショアのアルゴリズムの多次元バージョンを提案し、より少ない量子ゲートを必要とした。
解析的数論の道具を用いて、この予想のバージョンを証明する。
その結果、この改良された量子アルゴリズムの正確性の無条件証明が得られる。
論文 参考訳(メタデータ) (2024-04-25T09:30:19Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Multiple Subset Problem as an encryption scheme for communication [0.0]
部分集合和問題(SSP)は、与えられた集合から整数のサブセットを見つけ、その和は指定された整数に等しいと定義することができる。
本稿では,MSSPに基づく暗号化方式を提案し,その新しい利用法と実装について述べる。
論文 参考訳(メタデータ) (2024-01-17T14:02:40Z) - A new lightweight additive homomorphic encryption algorithm [0.0]
本稿では、同じ暗号鍵と復号鍵を持つ軽量な加法的同型アルゴリズムについて述べる。
これにより、モジュラー指数からモジュラー乗算への暗号化と復号化の計算コストが削減される。
論文 参考訳(メタデータ) (2023-12-12T05:12:20Z) - Frontier Language Models are not Robust to Adversarial Arithmetic, or
"What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。
この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。
これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文 参考訳(メタデータ) (2023-11-08T19:07:10Z) - Efficient Algorithms for Recognizing Weighted Tree-Adjoining Languages [104.90415092306219]
4つの形式は、ツリー随伴文法(TAG)、線形指数文法(LIG)、プッシュダウン随伴オートマトン(PAA)、組込みプッシュダウンオートマトン(EPDA)に相当する。
我々は,文字列の導出量(文字列のすべてのオートマトン重み)と全導出量(全ての導出量重み)を計算するための新しいアルゴリズムを設計する。
EPDA の場合、我々のアルゴリズムは、$mathcalO(|Gamma|2)$ および $ の因子による Alonso et al. (2001) のアルゴリズムよりも空間効率と時間効率が良い。
論文 参考訳(メタデータ) (2023-10-23T18:26:00Z) - Longest Common Substring and Longest Palindromic Substring in
$\tilde{\mathcal{O}}(\sqrt{n})$ Time [0.0]
LCS(Longest Common Substring)とLPS(Longest Palindromic Substring)は、コンピュータ科学における古典的な問題である。
計算回路モデルにおいて, LCS と LPS の双方に対する量子アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-03T19:27:57Z) - Shor's Factoring Algorithm and Modular Exponentiation Operators [0.0]
Shorの分解アルゴリズムは、非常に大きな数(数百から数千ビット)を時間で分解する量子アルゴリズムである。
因数分解問題に対する既知のすべての古典的アルゴリズムは、多数の因数分解に指数関数的な時間を要する。
これらのノートでは、ショアのアルゴリズムについて、量子コンピューティングの回路モデルに精通した基礎的知識以上の事前知識は仮定しない。
論文 参考訳(メタデータ) (2023-06-15T13:29:20Z) - DS-1000: A Natural and Reliable Benchmark for Data Science Code
Generation [70.96868419971756]
DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。
まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。
第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
論文 参考訳(メタデータ) (2022-11-18T17:20:27Z) - Complex Reading Comprehension Through Question Decomposition [48.256818683923626]
本稿では,言語モデルによる難解なマルチホップ質問の理解を支援する新しい学習手法を提案する。
我々のモデルはまず、訓練可能な質問分解器によって、各マルチホップ質問をいくつかのサブクエストに分解することを学ぶ。
我々は,シーケンス・ツー・シーケンス方式で解答を予測するために,読解理解モデルを活用する。
論文 参考訳(メタデータ) (2022-11-07T02:54:04Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Learning of Structurally Unambiguous Probabilistic Grammars [7.347989843033034]
CMTAは確率文法に変換可能であることを示す。
学習したCMTAは、構造的に曖昧な確率論的文脈自由文法を学習するための完全なアルゴリズムに変換可能であることを示す。
論文 参考訳(メタデータ) (2022-03-17T17:01:51Z) - Algorithms and SQ Lower Bounds for PAC Learning One-Hidden-Layer ReLU
Networks [48.32532049640782]
ガウス境界の下で, 1層ReLUネットワークを$k$の隠れ単位で学習する問題をmathbbRd$で研究する。
正の係数の場合、この学習問題の初回アルゴリズムを$k$から$tildeOOmega(sqrtlog d)$まで与える。
論文 参考訳(メタデータ) (2020-06-22T17:53:54Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。