論文の概要: An Empirical Investigation of Contextualized Number Prediction
- arxiv url: http://arxiv.org/abs/2011.07961v1
- Date: Tue, 20 Oct 2020 23:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:12:48.419475
- Title: An Empirical Investigation of Contextualized Number Prediction
- Title(参考訳): 文脈化数予測の実証的研究
- Authors: Daniel Spokoyny, Taylor Berg-Kirkpatrick
- Abstract要約: 本研究では,(1)未知の数値を文内に予測する仮数予測と,(2)誤りの少ない数値を文内に検出する数値検出という2つのタスクについて考察する。
本稿では,潜在変数を組み込んで表現性を付加し,テキスト実行時の数値値の自然分布をよりよく適合させる出力分布パラメータ化スイートを提案する。
金融分野と科学分野の2つの数値データセット上でこれらのモデルを評価する。
- 参考スコア(独自算出の注目度): 34.56914472173953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We conduct a large scale empirical investigation of contextualized number
prediction in running text. Specifically, we consider two tasks: (1)masked
number prediction-predicting a missing numerical value within a sentence, and
(2)numerical anomaly detection-detecting an errorful numeric value within a
sentence. We experiment with novel combinations of contextual encoders and
output distributions over the real number line. Specifically, we introduce a
suite of output distribution parameterizations that incorporate latent
variables to add expressivity and better fit the natural distribution of
numeric values in running text, and combine them with both recurrent and
transformer-based encoder architectures. We evaluate these models on two
numeric datasets in the financial and scientific domain. Our findings show that
output distributions that incorporate discrete latent variables and allow for
multiple modes outperform simple flow-based counterparts on all datasets,
yielding more accurate numerical prediction and anomaly detection. We also show
that our models effectively utilize textual con-text and benefit from
general-purpose unsupervised pretraining.
- Abstract(参考訳): 実行中のテキストにおける文脈化数予測の大規模実験を行った。
具体的には,(1)欠落した数値を文内に予測する仮数予測と(2)誤りのある数値を文内に検出する数値異常検出という2つのタスクを考える。
実数直線上のコンテクストエンコーダと出力分布の新たな組み合わせを実験する。
具体的には、潜在変数を組み込んだ出力分布パラメータ化スイートを導入し、実行中のテキストにおける数値値の自然分布をよりよく適合させ、繰り返しおよび変換器ベースのエンコーダアーキテクチャと組み合わせる。
金融分野と科学分野の2つの数値データセット上でこれらのモデルを評価する。
これらの結果から, 離散潜伏変数を包含し, 複数モードの出力分布が, 全データセットにおいて単純なフローベースよりも優れており, より正確な数値予測と異常検出が得られることがわかった。
また,本モデルではテキスト・コンテクストを効果的に活用し,汎用的教師なし事前学習の利点も示している。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - xVal: A Continuous Number Encoding for Large Language Models [42.19323262199993]
一つのトークンを用いて任意の実数を表す数値符号化方式であるxValを提案する。
我々は,いくつかの合成および実世界のデータセットに対する提案を実証的に評価した。
論文 参考訳(メタデータ) (2023-10-04T17:26:16Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Two-stage Modeling for Prediction with Confidence [0.0]
分布シフト条件下でニューラルネットワークの性能を一般化することは困難である。
本稿では,分散シフト問題に対する新しい2段階モデルを提案する。
我々のモデルは、ほとんどのデータセットに対して信頼性の高い予測を提供することを示す。
論文 参考訳(メタデータ) (2022-09-19T08:48:07Z) - Bayesian Topic Regression for Causal Inference [3.9082355007261427]
観測テキストデータを用いた因果推論は、多くの研究領域で人気が高まっている。
本稿では,テキストと数値情報の両方を用いて結果変数をモデル化するベイズ的トピック回帰モデルを提案する。
論文 参考訳(メタデータ) (2021-09-11T16:40:43Z) - Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。
第1は、推論サンプルの摂動による損失差を評価する。
2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文 参考訳(メタデータ) (2021-03-02T00:59:19Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。