論文の概要: A ripple in time: a discontinuity in American history
- arxiv url: http://arxiv.org/abs/2312.01185v4
- Date: Sat, 4 May 2024 09:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:15:17.476570
- Title: A ripple in time: a discontinuity in American history
- Title(参考訳): 時間の波--アメリカ史における不連続
- Authors: Alexander Kolpakov, Igor Rivin,
- Abstract要約: ここでは、KaggleのState of the Union Addressデータセットを使用して、驚くべき観察を行います。
我々の主なアプローチは、BERT (DistilBERT) や GPT-2 のようなベクトル埋め込みを使うことです。
我々の場合、モデル微調整は不要であり、事前訓練されたアウト・オブ・ザ・ボックス GPT-2 モデルで十分である。
- 参考スコア(独自算出の注目度): 49.84018914962972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this note we use the State of the Union Address (SOTU) dataset from Kaggle to make some surprising (and some not so surprising) observations pertaining to the general timeline of American history, and the character and nature of the addresses themselves. Our main approach is using vector embeddings, such as BERT (DistilBERT) and GPT-2. While it is widely believed that BERT (and its variations) is most suitable for NLP classification tasks, we find out that GPT-2 in conjunction with nonlinear dimension reduction methods such as UMAP provide better separation and stronger clustering. This makes GPT-2 + UMAP an interesting alternative. In our case, no model fine-tuning is required, and the pre-trained out-of-the-box GPT-2 model is enough. We also used a fine-tuned DistilBERT model for classification detecting which President delivered which address, with very good results (accuracy 93% - 95% depending on the run). An analogous task was performed to determine the year of writing, and we were able to pin it down to about 4 years (which is a single presidential term). It is worth noting that SOTU addresses provide relatively small writing samples (with about 8'000 words on average, and varying widely from under 2'000 words to more than 20'000), and that the number of authors is relatively large (we used SOTU addresses of 42 US presidents). This shows that the techniques employed turn out to be rather efficient, while all the computations described in this note can be performed using a single GPU instance of Google Colab. The accompanying code is available on GitHub.
- Abstract(参考訳): この注記では、Kaggle の State of the Union Address (SOTU) データセットを使って、アメリカ史の一般的なタイムラインと、そのアドレス自体の特性と性質に関する驚くべき(そしてそれほど意外ではない)観察を行う。
我々の主なアプローチは、BERT (DistilBERT) や GPT-2 のようなベクトル埋め込みを使うことです。
BERT(およびそのバリエーション)はNLP分類タスクに最も適していると広く信じられているが、UDIなどの非線形次元減少法と組み合わせたGPT-2は、より良い分離とより強力なクラスタリングを提供する。
これにより、GPT-2 + UMAP が興味深い代替となる。
我々の場合、モデル微調整は不要であり、事前訓練されたアウト・オブ・ザ・ボックス GPT-2 モデルで十分である。
また、細調整した DistilBERT モデルを用いて、大統領がどのアドレスをどのアドレスで送ったかの分類を行い、非常に良い結果を得た(精度は93% - 95%)。
執筆年を決定するために類似のタスクが実行され、我々はそれを約4年(大統領任期の1つ)に留めることができた。
注意すべき点は、SOTUアドレスは比較的小さな文字サンプル(平均で約8万語、20万語以上)を提供しており、著者の数は比較的多いことである(42人の米国大統領によるSOTUアドレスを使用した)。
これは、このノートに記載されているすべての計算は、Google Colabの単一のGPUインスタンスを使用して行うことができる一方で、採用されるテクニックはかなり効率的であることを示している。
付属するコードはGitHubで入手できる。
関連論文リスト
- Contrastive Entity Coreference and Disambiguation for Historical Texts [2.446672595462589]
既存のエンティティの曖昧さの方法はしばしば、現代の知識ベースに記憶されていない個人を悩ませる歴史文書の正確さに欠ける。
本研究は,文献の文書間照合の解決と曖昧さの解消に3つの重要な貢献をしている。
論文 参考訳(メタデータ) (2024-06-21T18:22:14Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - The Effects of Character-Level Data Augmentation on Style-Based Dating
of Historical Manuscripts [5.285396202883411]
本稿では,古写本の年代測定におけるデータ拡張の影響について考察する。
リニアサポートベクトルマシンは、歴史的写本から抽出されたテクスチャおよびグラファイムに基づく特徴に基づいて、k倍のクロスバリデーションで訓練された。
その結果, 付加データを用いたトレーニングモデルは, 累積スコアの1%~3%の古写本の性能を向上させることがわかった。
論文 参考訳(メタデータ) (2022-12-15T15:55:44Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z) - Temporal Common Sense Acquisition with Minimal Supervision [77.8308414884754]
この研究は、時間的常識の明示的で暗黙的な言及を活用する新しいシーケンスモデリング手法を提案する。
本手法は,時間的共通感覚の様々な次元の質予測を行う。
また、時間比較、親子関係、イベントコア参照、時間的QAなど、関連するタスクに対するイベントの表現も生成する。
論文 参考訳(メタデータ) (2020-05-08T22:20:16Z) - Politeness Transfer: A Tag and Generate Approach [167.9924201435888]
本稿では, 丁寧性伝達の新たな課題について紹介する。
意味を保ちながら、非政治的な文を丁寧な文に変換することを含む。
我々はタグを設計し、スタイル属性を識別するパイプラインを生成し、その後、ターゲットスタイルで文を生成する。
論文 参考訳(メタデータ) (2020-04-29T15:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。