論文の概要: Combining Constrained and Unconstrained Decoding via Boosting: BoostCD and Its Application to Information Extraction
- arxiv url: http://arxiv.org/abs/2506.14901v1
- Date: Tue, 17 Jun 2025 18:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.447818
- Title: Combining Constrained and Unconstrained Decoding via Boosting: BoostCD and Its Application to Information Extraction
- Title(参考訳): ブースティングによる制約付きデコードと制約なしデコードの組み合わせ:BoostCDと情報抽出への応用
- Authors: Marija Šakota, Robert West,
- Abstract要約: Boosted Constrained Decodingは制約付きと制約なしのデコーディングを2つのフェーズで組み合わせる。
閉鎖情報抽出に適用することで,BoostCDのパワーを実証する。
- 参考スコア(独自算出の注目度): 11.996681571362744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent approaches to structured NLP tasks use an autoregressive language model $M$ to map unstructured input text $x$ to output text $y$ representing structured objects (such as tuples, lists, trees, code, etc.), where the desired output structure is enforced via constrained decoding. During training, these approaches do not require the model to be aware of the constraints, which are merely implicit in the training outputs $y$. This is advantageous as it allows for dynamic constraints without requiring retraining, but can lead to low-quality output during constrained decoding at test time. We overcome this problem with Boosted Constrained Decoding (BoostCD), which combines constrained and unconstrained decoding in two phases: Phase 1 decodes from the base model $M$ twice, in constrained and unconstrained mode, obtaining two weak predictions. In phase 2, a learned autoregressive boosted model combines the two weak predictions into one final prediction. The mistakes made by the base model with vs. without constraints tend to be complementary, which the boosted model learns to exploit for improved performance. We demonstrate the power of BoostCD by applying it to closed information extraction. Our model, BoostIE, outperforms prior approaches both in and out of distribution, addressing several common errors identified in those approaches.
- Abstract(参考訳): 構造化NLPタスクに対する最近の多くのアプローチでは、自動回帰言語モデル$M$を使って非構造化入力テキスト$x$をマッピングし、構造化オブジェクト(タプル、リスト、ツリー、コードなど)を表すテキスト$y$を出力している。
トレーニング中、これらのアプローチは、トレーニングアウトプットの$y$で単に暗黙的な制約に気付く必要がない。
これは、再トレーニングを必要とせずに動的制約を許容するが、テスト時に制約付きデコード時に低品質の出力につながる可能性があるため、利点がある。
本稿では,制約付きデコードと制約なしデコードを組み合わせたBoostCD(Boosted Constrained Decoding)でこの問題を克服する。
フェーズ2では、学習された自己回帰強化モデルが2つの弱い予測を1つの最終予測に組み合わせる。
制約なしでベースモデルが犯したミスは相補的になりがちで、強化されたモデルはパフォーマンスを改善するために活用することを学ぶ。
閉鎖情報抽出に適用することで,BoostCDのパワーを実証する。
我々のモデルであるBoostIEは、分布内と外の両方で以前のアプローチより優れており、それらのアプローチで特定されるいくつかの一般的なエラーに対処しています。
関連論文リスト
- Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Scaling Embedding Layers in Language Models [52.47659840377581]
SCONEは入力埋め込み層を拡張し、言語モデルの性能を向上させる新しい方法である。
埋め込みは各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。
SCONEは2つの新しいスケーリング戦略を実現する。$n$-gramの埋め込み数を増やし、それらを学ぶために使用するモデルをスケーリングする。
論文 参考訳(メタデータ) (2025-02-03T18:59:32Z) - PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models [8.480318790780037]
本稿では,PLPPと呼ばれるプラグイン・プロンプト正規化手法を提案する。
4つの分類タスクで行った実験は、PLPPが既存の手法に比べて優れた性能を示したことを示している。
論文 参考訳(メタデータ) (2024-12-18T03:08:53Z) - SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications [9.143856130336783]
投機的復号化は、大規模言語モデル(LLM)推論の遅延を低減するために広く採用されている。
エージェントフレームワークは、同様のサブタスクを実行するマルチエージェントパイプラインや、アウトプットを反復的に拡張するセルフリファインメントループなど、反復的な推論要求を送信します。
本稿では,効率的な接尾辞木を用いて長いトークン列をキャッシュする新しい手法であるemphSuffixDecodingを紹介する。
論文 参考訳(メタデータ) (2024-11-07T18:49:33Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。