論文の概要: A ripple in time: a discontinuity in American history
- arxiv url: http://arxiv.org/abs/2312.01185v1
- Date: Sat, 2 Dec 2023 17:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:40:13.233831
- Title: A ripple in time: a discontinuity in American history
- Title(参考訳): 時間の波及:アメリカの歴史における不連続
- Authors: Alexander Kolpakov, Igor Rivin
- Abstract要約: このメモは、KaggleのState of the Union Addressデータセットを使用して、驚くべき観察を行う。
我々の主なアプローチは、BERT (DistilBERT) や GPT-2 のようなベクトル埋め込みを使うことです。
すべての計算は、GitHubの付随するコードを使用することで複製できる。
- 参考スコア(独自算出の注目度): 56.01537787608726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this note we use the State of the Union Address dataset from Kaggle to
make some surprising (and some not so surprising) observations pertaining to
the general timeline of American history, and the character and nature of the
addresses themselves. Our main approach is using vector embeddings, such as
BERT (DistilBERT) and GPT-2. While it is widely believed that BERT (and its
variations) is most suitable for NLP classification tasks, we find out that
GPT-2 in conjunction with nonlinear dimension reduction methods such as UMAP
provide better separation and stronger clustering. This makes GPT-2 + UMAP an
interesting alternative. In our case, no model fine-tuning is required, and the
pre-trained out-of-the-box GPT-2 model is enough. We also used a fine-tuned
DistilBERT model for classification (detecting which president delivered which
address), with very good results (accuracy 93% - 95% depending on the run). All
computations can be replicated by using the accompanying code on GitHub.
- Abstract(参考訳): このノートでは、kaggleのユニオンアドレスデータセットを使用して、アメリカの歴史の一般的なタイムラインと、そのアドレスの性格と性質に関する驚くべき(そして、それほど驚きではない)観察を行う。
我々の主なアプローチは、BERT (DistilBERT) や GPT-2 のようなベクトル埋め込みを使うことです。
BERT(およびそのバリエーション)はNLP分類タスクに最も適していると広く信じられているが、UDIなどの非線形次元減少法と組み合わせたGPT-2は、より良い分離とより強力なクラスタリングを提供する。
これにより、GPT-2 + UMAPが興味深い代替となる。
我々の場合、モデル微調整は不要であり、事前訓練されたGPT-2モデルで十分である。
分類には微調整されたディチルバートモデル(どの大統領がどの宛先を届けるかを検出する)も使用し、非常に良い結果を得た(93% - 95%)。
すべての計算はGitHubの付随するコードを使って複製できる。
関連論文リスト
- Contrastive Entity Coreference and Disambiguation for Historical Texts [2.446672595462589]
既存のエンティティの曖昧さの方法はしばしば、現代の知識ベースに記憶されていない個人を悩ませる歴史文書の正確さに欠ける。
本研究は,文献の文書間照合の解決と曖昧さの解消に3つの重要な貢献をしている。
論文 参考訳(メタデータ) (2024-06-21T18:22:14Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - The Effects of Character-Level Data Augmentation on Style-Based Dating
of Historical Manuscripts [5.285396202883411]
本稿では,古写本の年代測定におけるデータ拡張の影響について考察する。
リニアサポートベクトルマシンは、歴史的写本から抽出されたテクスチャおよびグラファイムに基づく特徴に基づいて、k倍のクロスバリデーションで訓練された。
その結果, 付加データを用いたトレーニングモデルは, 累積スコアの1%~3%の古写本の性能を向上させることがわかった。
論文 参考訳(メタデータ) (2022-12-15T15:55:44Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z) - Temporal Common Sense Acquisition with Minimal Supervision [77.8308414884754]
この研究は、時間的常識の明示的で暗黙的な言及を活用する新しいシーケンスモデリング手法を提案する。
本手法は,時間的共通感覚の様々な次元の質予測を行う。
また、時間比較、親子関係、イベントコア参照、時間的QAなど、関連するタスクに対するイベントの表現も生成する。
論文 参考訳(メタデータ) (2020-05-08T22:20:16Z) - Politeness Transfer: A Tag and Generate Approach [167.9924201435888]
本稿では, 丁寧性伝達の新たな課題について紹介する。
意味を保ちながら、非政治的な文を丁寧な文に変換することを含む。
我々はタグを設計し、スタイル属性を識別するパイプラインを生成し、その後、ターゲットスタイルで文を生成する。
論文 参考訳(メタデータ) (2020-04-29T15:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。