論文の概要: A ripple in time: a discontinuity in American history
- arxiv url: http://arxiv.org/abs/2312.01185v3
- Date: Tue, 23 Jan 2024 09:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 12:52:33.799629
- Title: A ripple in time: a discontinuity in American history
- Title(参考訳): 時間の波及:アメリカの歴史における不連続
- Authors: Alexander Kolpakov, Igor Rivin
- Abstract要約: ここでは、KaggleのState of the Union Addressデータセットを使用して、驚くべき観察を行います。
我々の主なアプローチは、BERT (DistilBERT) や GPT-2 のようなベクトル埋め込みを使うことです。
我々の場合、モデル微調整は不要であり、事前訓練されたアウト・オブ・ザ・ボックス GPT-2 モデルで十分である。
- 参考スコア(独自算出の注目度): 56.01537787608726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this note we use the State of the Union Address (SOTU) dataset from Kaggle
to make some surprising (and some not so surprising) observations pertaining to
the general timeline of American history, and the character and nature of the
addresses themselves. Our main approach is using vector embeddings, such as
BERT (DistilBERT) and GPT-2.
While it is widely believed that BERT (and its variations) is most suitable
for NLP classification tasks, we find out that GPT-2 in conjunction with
nonlinear dimension reduction methods such as UMAP provide better separation
and stronger clustering. This makes GPT-2 + UMAP an interesting alternative. In
our case, no model fine-tuning is required, and the pre-trained out-of-the-box
GPT-2 model is enough.
We also used a fine-tuned DistilBERT model for classification detecting which
President delivered which address, with very good results (accuracy 93% - 95%
depending on the run). An analogous task was performed to determine the year of
writing, and we were able to pin it down to about 4 years (which is a single
presidential term).
It is worth noting that SOTU addresses provide relatively small writing
samples (with about 8'000 words on average, and varying widely from under 2'000
words to more than 20'000), and that the number of authors is relatively large
(we used SOTU addresses of 42 US presidents). This shows that the techniques
employed turn out to be rather efficient, while all the computations described
in this note can be performed using a single GPU instance of Google Colab.
The accompanying code is available on GitHub.
- Abstract(参考訳): この注記では、Kaggle の State of the Union Address (SOTU) データセットを使って、アメリカ史の一般的なタイムラインと、そのアドレス自体の特性と性質に関する驚くべき(そしてそれほど意外ではない)観察を行う。
我々の主なアプローチは、BERT (DistilBERT) や GPT-2 のようなベクトル埋め込みを使うことです。
BERT(およびそのバリエーション)はNLP分類タスクに最も適していると広く信じられているが、UDIなどの非線形次元減少法と組み合わせたGPT-2は、より良い分離とより強力なクラスタリングを提供する。
これにより、GPT-2 + UMAPが興味深い代替となる。
我々の場合、モデル微調整は不要であり、事前訓練されたGPT-2モデルで十分である。
また、細調整した DistilBERT モデルを用いて、大統領がどのアドレスをどのアドレスで送ったかの分類を行い、非常に良い結果を得た(精度は93% - 95%)。
執筆年を決定するために類似のタスクが実行され、我々はそれを約4年(大統領任期の1つ)に留めることができた。
sotuアドレスは、比較的小さな文書サンプル(平均で約80000語、200万語から20万語以上)を提供しており、著者数は比較的多い(42人の大統領がsotuアドレスを使っていた)ことは注目すべきである。
これは、このノートで記述された全ての計算はgoogle colabの1つのgpuインスタンスを使って実行できるが、採用されているテクニックはかなり効率的であることを示している。
付属するコードはGitHubで入手できる。
関連論文リスト
- Hypergraph Enhanced Knowledge Tree Prompt Learning for Next-Basket
Recommendation [50.55786122323965]
次バスケットレコメンデーション(NBR)は、対応するバスケットシーケンスが与えられた次のバスケット内のアイテムを推論することを目的としている。
HEKP4NBRは知識グラフ(KG)をKTP(Knowledge Tree Prompt)と呼ばれるプロンプトに変換し、PLMがOOV(Out-Of-Vocabulary)アイテムIDをエンコードするのを助ける。
ハイパーグラフ畳み込みモジュールは、複数の側面からMoEモデルによって測定されたアイテム類似性に基づいてハイパーグラフを構築するように設計されている。
論文 参考訳(メタデータ) (2023-12-26T02:12:21Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Boosting classification reliability of NLP transformer models in the
long run [0.0]
本稿では,長期にわたる分類課題に対して,BERTモデルを微調整するための異なるアプローチを比較する。
当社のコーパスには、2020年9月から2021年12月までのハンガリーでの新型コロナウイルスワクチン接種に関するコメントが800万件以上含まれています。
論文 参考訳(メタデータ) (2023-02-20T14:46:54Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Offensive Language Detection with BERT-based models, By Customizing
Attention Probabilities [0.0]
本稿では,攻撃言語検出タスクにおけるBERTモデルの性能向上手法を提案する。
我々は、注意マスクの入力を変更して、より効果的な単語埋め込みを作成することにより、注意確率をカスタマイズする。
最も良くなったのは、英語とペルシア語でそれぞれ2%と10%であった。
論文 参考訳(メタデータ) (2021-10-11T10:23:44Z) - Automatic Face Understanding: Recognizing Families in Photos [6.131589026706621]
親族認識のための最大のデータベースを構築します。
ビデオダイナミックス、オーディオ、テキストキャプションは、親族認識システムの意思決定に使用することができる。
論文 参考訳(メタデータ) (2021-01-10T22:37:25Z) - Improving Semi-supervised Federated Learning by Reducing the Gradient
Diversity of Models [67.66144604972052]
Federated Learning(FL)は、ユーザのプライバシを維持しながらモバイルデバイスのコンピューティングパワーを使用する、有望な方法だ。
テスト精度に影響を与える重要な問題は、異なるユーザーからのモデルの勾配の多様性であることを示す。
本稿では,FedAvg平均化を代替するグループモデル平均化手法を提案する。
論文 参考訳(メタデータ) (2020-08-26T03:36:07Z) - Deep Contextual Embeddings for Address Classification in E-commerce [0.03222802562733786]
インドのような発展途上国のEコマース顧客は、発送先を入力している間、固定フォーマットに従わない傾向にある。
アドレスの言語を理解することは必須であり、出荷を遅延なくルーティングできる。
自然言語処理(NLP)の最近の進歩からモチベーションを導き,顧客アドレスを理解するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-06T19:06:34Z) - G2MF-WA: Geometric Multi-Model Fitting with Weakly Annotated Data [15.499276649167975]
弱いアノテーションでは、ほとんどの手動アノテーションは正しくなければならないが、必然的に間違ったアノテーションと混同されている。
本稿では,WAデータを完全に活用してマルチモデル適合性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2020-01-20T04:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。