論文の概要: Tracing the Genealogies of Ideas with Large Language Model Embeddings
- arxiv url: http://arxiv.org/abs/2402.01661v1
- Date: Sat, 13 Jan 2024 18:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 17:03:02.120299
- Title: Tracing the Genealogies of Ideas with Large Language Model Embeddings
- Title(参考訳): 大規模言語モデルによるアイデアの系譜の追跡
- Authors: Lucian Li
- Abstract要約: 大規模コーパスにまたがる知的影響を検出する新しい手法を提案する。
この手法を用いて、19世紀の約40万冊のノンフィクション書籍と学術出版物のコーパスから文章をベクトル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, I present a novel method to detect intellectual influence
across a large corpus. Taking advantage of the unique affordances of large
language models in encoding semantic and structural meaning while remaining
robust to paraphrasing, we can search for substantively similar ideas and hints
of intellectual influence in a computationally efficient manner. Such a method
allows us to operationalize different levels of confidence: we can allow for
direct quotation, paraphrase, or speculative similarity while remaining open
about the limitations of each threshold. I apply an ensemble method combining
General Text Embeddings, a state-of-the-art sentence embedding method optimized
to capture semantic content and an Abstract Meaning Representation graph
representation designed to capture structural similarities in argumentation
style and the use of metaphor. I apply this method to vectorize sentences from
a corpus of roughly 400,000 nonfiction books and academic publications from the
19th century for instances of ideas and arguments appearing in Darwin's
publications. This functions as an initial evaluation and proof of concept; the
method is not limited to detecting Darwinian ideas but is capable of detecting
similarities on a large scale in a wide range of corpora and contexts.
- Abstract(参考訳): 本稿では,大規模コーパス間の知的影響を検出する新しい手法を提案する。
意味的意味と構造的意味をエンコードする上で,大規模言語モデルの独特な余裕を生かして,実質的に類似したアイデアや,知的影響のヒントを計算的に効率的に検索することができる。
このような方法では、異なるレベルの信頼を運用することが可能です。私たちは各しきい値の制限についてオープンのままで、直接の引用、パラフレーズ、投機的類似性を許容できます。
一般的なテキスト埋め込み法と,意味コンテンツのキャプチャに最適化された最先端文埋め込み法と,議論スタイルにおける構造的類似性とメタファーの使用を捉えるように設計された抽象的意味表現グラフ表現法を組み合わせたアンサンブル手法を適用する。
この方法では、ダーウィンの出版物に現れるアイデアや議論の例として、約40万冊のノンフィクションや19世紀の学術出版物のコーパスから文章をベクトル化する。
これは初期の評価と概念実証として機能し、この手法はダーウィンのアイデアの検出に限らず、幅広いコーパスや文脈において大規模に類似性を検出することができる。
関連論文リスト
- Conjuring Semantic Similarity [59.18714889874088]
2つのテキスト表現間の意味的類似性は、潜伏者の「意味」の間の距離を測定する
テキスト表現間の意味的類似性は、他の表現を言い換えるのではなく、それらが引き起こすイメージに基づいている、という新しいアプローチを提案する。
提案手法は,人間の注釈付きスコアに適合するだけでなく,テキスト条件付き生成モデル評価のための新たな道を開く意味的類似性に関する新たな視点を提供する。
論文 参考訳(メタデータ) (2024-10-21T18:51:34Z) - CommunityFish: A Poisson-based Document Scaling With Hierarchical
Clustering [0.0]
本稿では,単語空間上の階層的クラスタリング,すなわちルービンアルゴリズムに基づくWordfishの拡張版としてCommunityFishを紹介し,コーパスから出現する意味的および独立したn-gramとしてコミュニティを生成する。
この戦略は、コミュニティが重複しない構造であるため、Poissonスケーリングモデルの実行の高速化に加えて、当事者や講演者を識別する上で重要な情報的力を持つため、結果の解釈可能性を強調している。
論文 参考訳(メタデータ) (2023-08-28T19:52:18Z) - A Comparative Study of Sentence Embedding Models for Assessing Semantic
Variation [0.0]
本稿では,複数の文献において,連続する文間の意味的類似性の時系列と対の文類似性の行列を用いた最近の文埋め込み法について比較する。
文の埋め込み手法のほとんどは、ある文書において意味的類似性の高相関パターンを推定するが、興味深い相違が見られる。
論文 参考訳(メタデータ) (2023-08-08T23:31:10Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Measuring Fine-Grained Semantic Equivalence with Abstract Meaning
Representation [9.666975331506812]
意味論的に等価な文を特定することは、多くのNLPタスクにとって重要である。
意味的同値性への最近のアプローチは「等価性」への緩やかな文レベルのアプローチを取る
抽象的意味表現グラフ構造を利用した意味等価性を特徴付ける新しい,より敏感な手法を提案する。
論文 参考訳(メタデータ) (2022-10-06T16:08:27Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Multi-sense embeddings through a word sense disambiguation process [2.2344764434954256]
最も適した感覚。
(MSSA)は、その文脈の意味的効果を考慮して、それぞれの単語をその特定の感覚で曖昧にし、注釈する。
我々は,単語類似性タスクの6つの異なるベンチマークでアプローチを検証し,そのアプローチが最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-01-21T16:22:34Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - A computational model implementing subjectivity with the 'Room Theory'.
The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。
単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。
この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文 参考訳(メタデータ) (2020-05-12T21:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。