論文の概要: From Small to Large Language Models: Revisiting the Federalist Papers
- arxiv url: http://arxiv.org/abs/2503.01869v1
- Date: Tue, 25 Feb 2025 21:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 03:20:34.709069
- Title: From Small to Large Language Models: Revisiting the Federalist Papers
- Title(参考訳): 小型言語モデルから大規模言語モデルへ:連邦主義の論文を再考
- Authors: So Won Jeong, Veronika Rockova,
- Abstract要約: 本稿では,よりポピュラーなLarge Language Model (LLM) ツールについてレビューし,テキスト分類の文脈における統計的観点から検討する。
本研究では, ファインチューンを使わずに, 一般的な埋め込み構造がスタイメトリーや属性に有用であるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: For a long time, the authorship of the Federalist Papers had been a subject of inquiry and debate, not only by linguists and historians but also by statisticians. In what was arguably the first Bayesian case study, Mosteller and Wallace (1963) provided the first statistical evidence for attributing all disputed papers to Madison. Our paper revisits this historical dataset but from a lens of modern language models, both small and large. We review some of the more popular Large Language Model (LLM) tools and examine them from a statistical point of view in the context of text classification. We investigate whether, without any attempt to fine-tune, the general embedding constructs can be useful for stylometry and attribution. We explain differences between various word/phrase embeddings and discuss how to aggregate them in a document. Contrary to our expectations, we exemplify that dimension expansion with word embeddings may not always be beneficial for attribution relative to dimension reduction with topic embeddings. Our experiments demonstrate that default LLM embeddings (even after manual fine-tuning) may not consistently improve authorship attribution accuracy. Instead, Bayesian analysis with topic embeddings trained on ``function words" yields superior out-of-sample classification performance. This suggests that traditional (small) statistical language models, with their interpretability and solid theoretical foundation, can offer significant advantages in authorship attribution tasks. The code used in this analysis is available at github.com/sowonjeong/slm-to-llm
- Abstract(参考訳): 長い間、連邦主義論文の著者は言語学者や歴史家だけでなく統計学者からも調査と議論の対象となっていた。
ベイズの最初のケーススタディとして、モステラーとウォレス(1963年)はマディソンに全ての議論された論文を提出した最初の統計的証拠を提供した。
本稿では,この歴史的データセットを,小型・大規模の現代言語モデルのレンズから再検討する。
我々は,よりポピュラーなLarge Language Model (LLM) ツールについてレビューし,テキスト分類の文脈における統計的観点から検討する。
本研究では, ファインチューンを使わずに, 一般的な埋め込み構造がスタイメトリーや属性に有用であるかどうかを考察する。
様々な単語/フレーズの埋め込みの違いを説明し、それらを文書にまとめる方法について論じる。
予想とは対照的に、単語埋め込みによる次元展開は、話題埋め込みによる次元の減少に対する帰結に必ずしも有益であるとは限らないことを実証する。
実験の結果,手作業による微調整後であっても,デフォルトのLDM埋め込みは作者属性の精度を向上することができないことがわかった。
代わりに、「機能語」で訓練されたトピック埋め込みを用いたベイズ解析は、サンプル外分類性能が優れている。
このことは、従来の(小さな)統計言語モデルとその解釈可能性と固い理論基盤が、著者帰属タスクにおいて大きな利点をもたらすことを示唆している。
この分析で使用されるコードはgithub.com/sowonjeong/slm-to-llmで入手できる。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - CausalCite: A Causal Formulation of Paper Citations [80.82622421055734]
CausalCiteは紙の意義を測定するための新しい方法だ。
これは、従来のマッチングフレームワークを高次元のテキスト埋め込みに適応させる、新しい因果推論手法であるTextMatchに基づいている。
科学専門家が報告した紙衝撃と高い相関性など,各種基準におけるCausalCiteの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-05T23:09:39Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - It's All Relative: Interpretable Models for Scoring Bias in Documents [10.678219157857946]
本稿では,テキストコンテンツのみに基づいて,Webドキュメントに存在するバイアスを評価するための解釈可能なモデルを提案する。
我々のモデルはBradley-Terryの公理を思わせる仮定を取り入れ、同じウィキペディアの記事の2つの修正に基づいて訓練されている。
我々は、訓練されたモデルのパラメータを解釈して、最も偏りを示す単語を見つけることができることを示す。
論文 参考訳(メタデータ) (2023-07-16T19:35:38Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - The Change that Matters in Discourse Parsing: Estimating the Impact of
Domain Shift on Parser Error [14.566990078034241]
我々は、誤差ギャップに直接結び付けることができる理論的領域適応文献から統計を用いる。
本研究では,6つの談話データセットにおける2400以上の実験の大規模実験を通じて,この統計の偏りを理論的・理論的に誤差ギャップの推定指標として検討した。
論文 参考訳(メタデータ) (2022-03-21T20:04:23Z) - Mitigating Racial Biases in Toxic Language Detection with an
Equity-Based Ensemble Framework [9.84413545378636]
最近の研究では、アフリカ系アメリカ人の英語を書いているユーザーに対する人種的偏見が、人気のある有毒な言語データセットに存在することが示されている。
これらのバイアスの発生源をよりよく理解するために、さらに説明的公正度指標を提案する。
提案手法は,モデルがこれらのデータセットから学習する人種的バイアスを大幅に低減することを示す。
論文 参考訳(メタデータ) (2021-09-27T15:54:05Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification [36.361778457307636]
ディープテキスト分類モデルは、特定の人口統計グループの著者によって書かれたテキストのバイアス結果を生成することができます。
本論文では,異なる人口集団の異なるテキスト分類タスクに暗黙のバイアスが存在することを示す。
そして、暗黙のバイアスの知識を深めるために、学習に基づく解釈方法を構築します。
論文 参考訳(メタデータ) (2021-05-06T16:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。