論文の概要: Markov Constraint as Large Language Model Surrogate
- arxiv url: http://arxiv.org/abs/2406.10269v1
- Date: Tue, 11 Jun 2024 16:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:21:32.703676
- Title: Markov Constraint as Large Language Model Surrogate
- Title(参考訳): 大規模言語モデルサロゲートとしてのマルコフ制約
- Authors: Alexandre Bonlarron, Jean-Charles Régin,
- Abstract要約: NgramMarkovは制約プログラミング(CP)におけるテキスト生成に特化している
これは文のn-グラムの確率の積を制限する。
5グラムではなく4グラムで現実の問題が初めて解決された。
- 参考スコア(独自算出の注目度): 49.86129209397701
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents NgramMarkov, a variant of the Markov constraints. It is dedicated to text generation in constraint programming (CP). It involves a set of n-grams (i.e., sequence of n words) associated with probabilities given by a large language model (LLM). It limits the product of the probabilities of the n-gram of a sentence. The propagator of this constraint can be seen as an extension of the ElementaryMarkov constraint propagator, incorporating the LLM distribution instead of the maximum likelihood estimation of n-grams. It uses a gliding threshold, i.e., it rejects n-grams whose local probabilities are too low, to guarantee balanced solutions. It can also be combined with a "look-ahead" approach to remove n-grams that are very unlikely to lead to acceptable sentences for a fixed-length horizon. This idea is based on the MDDMarkovProcess constraint propagator, but without explicitly using an MDD (Multi-Valued Decision Diagram). The experimental results show that the generated text is valued in a similar way to the LLM perplexity function. Using this new constraint dramatically reduces the number of candidate sentences produced, improves computation times, and allows larger corpora or smaller n-grams to be used. A real-world problem has been solved for the first time using 4-grams instead of 5-grams.
- Abstract(参考訳): 本稿では,マルコフ制約の変種であるNgramMarkovについて述べる。
制約プログラミング(CP)におけるテキスト生成に特化している。
これは、大きな言語モデル(LLM)によって与えられる確率に関連する一連のn-gram(すなわちnワードの列)を含む。
これは文のn-グラムの確率の積を制限する。
この制約のプロパゲータは、n-gram の最大推定ではなく LLM 分布を取り入れた、素マルコフ制約プロパゲータの拡張と見なすことができる。
これはグライディングしきい値、すなわち局所確率が低すぎるn-グラムを拒絶し、平衡解を保証する。
また、固定長地平線に対して許容される文につながる可能性が極めて低いn-gramを除去する「ルックアヘッド」アプローチと組み合わせることもできる。
この考え方はMDDMarkovProcess制約プロパゲータに基づいているが、MDD(Multi-Valued Decision Diagram)を明示的に使用していない。
実験の結果, 生成したテキストは, LLMのパープレキシティ関数と同じような方法で評価されることがわかった。
この新しい制約を使用することで、生成される候補文の数を劇的に削減し、計算時間を改善し、より大きなコーパスやより小さなn-gramを使用することができる。
5グラムではなく4グラムで現実の問題が初めて解決された。
関連論文リスト
- Controllable Generation via Locally Constrained Resampling [77.48624621592523]
本研究では, ベイズ条件付けを行い, 制約条件下でサンプルを描画する, トラクタブルな確率的手法を提案する。
提案手法はシーケンス全体を考慮し,現行のグリード法よりも大域的に最適に制約された生成を導出する。
提案手法は, 有害な世代からモデル出力を分離し, 脱毒化に対する同様のアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T00:49:53Z) - Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。
我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文 参考訳(メタデータ) (2024-07-25T16:13:58Z) - A Method of Moments Embedding Constraint and its Application to Semi-Supervised Learning [2.8266810371534152]
線形+ソフトマックス最終層を持つ非ネイティブなディープラーニングモデルには問題がある。
ラテント空間は条件付き確率$p(Y|X)$だけを予測するが、完全関節分布$p(Y,X)$は予測しない。
このことは、幻覚、不明瞭なバイアス、大規模なデータセットへの依存など、多くの問題に影響を及ぼす過信モデルをさらに悪化させる。
論文 参考訳(メタデータ) (2024-04-27T18:41:32Z) - Graph Cuts with Arbitrary Size Constraints Through Optimal Transport [18.338458637795263]
任意のサイズ制約下でグラフを分割するグラフカットアルゴリズムを提案する。
我々は,大域収束を臨界点に保証する高速化された近位GDアルゴリズムを用いてこの問題を解決する。
論文 参考訳(メタデータ) (2024-02-07T10:33:09Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Constraints First: A New MDD-based Model to Generate Sentences Under
Constraints [45.498315114762484]
本稿では,強い制約のあるテキストを生成するための新しいアプローチを提案する。
制約に対処するためには、よく知られたデータ構造である多値決定図(MDD)を用いる。
私たちは、よく知られた視覚スクリーニングテスト(MNREAD)で通常利用できる数十の文と比較して、何百ものボナファイド候補文を得る。
論文 参考訳(メタデータ) (2023-09-21T18:29:52Z) - Efficient Graph Laplacian Estimation by Proximal Newton [12.05527862797306]
グラフ学習問題は、精度行列の最大極大推定(MLE)として定式化することができる。
いくつかのアルゴリズム的特徴を利用した効率的な解法を得るための2次手法を開発した。
論文 参考訳(メタデータ) (2023-02-13T15:13:22Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Stochastic Bundle Adjustment for Efficient and Scalable 3D
Reconstruction [43.736296034673124]
カメラ数に比例したReduced Camera System(RCS)を解く際のボトルネックによって、Levenberg-Marquardt (LM)アルゴリズムのような現在のバンドル調整ソルバが制限される。
本稿では,CS を LM のほぼ内部で分解し,効率と拡張性を向上するバンドル調整アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-02T10:26:09Z) - Towards Discriminability and Diversity: Batch Nuclear-norm Maximization
under Label Insufficient Situations [154.51144248210338]
Batch Nuclear-norm Maximization (BNM) は、学習シナリオのラベルが不十分な場合の学習を促進するために提案されている。
BNMはライバルより優れており、既存のよく知られた手法でうまく機能する。
論文 参考訳(メタデータ) (2020-03-27T05:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。