論文の概要: Matching Meaning at Scale: Evaluating Semantic Search for 18th-Century Intellectual History through the Case of Locke
- arxiv url: http://arxiv.org/abs/2605.09236v1
- Date: Sun, 10 May 2026 00:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.133885
- Title: Matching Meaning at Scale: Evaluating Semantic Search for 18th-Century Intellectual History through the Case of Locke
- Title(参考訳): スケールにおけるマッチングの意味:ロックの事例による18世紀知的歴史のセマンティック検索の評価
- Authors: Yu Wu, Ananth Mahadevan, Filip Ginter, Michael Mathioudakis, Mikko Tolonen,
- Abstract要約: 本稿では,ジョン・ロックの基礎研究の受容を通じて,18世紀の知的歴史における意味探索を評価する。
セマンティックな分類法を基礎とした専門家アノテーションを用いて,意味レベルの対応を提示できるかどうかを検証した。
- 参考スコア(独自算出の注目度): 7.6850082739308965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While digitized corpora have transformed the study of intellectual transmission, current methods rely heavily on lexical text reuse detection, capturing verbatim quotations but fundamentally missing paraphrases and complex implicit engagement. This paper evaluates semantic search in 18th-century intellectual history through the reception of John Locke's foundational work. Using expert annotation grounded in a semantic taxonomy, we examine whether an off-the-shelf semantic search pipeline can surface meaning-level correspondences overlooked by lexical methods. Our results demonstrate that semantic search retrieves substantially more implicit receptions than lexical baselines. However, linguistic diagnostics also reveal a "lexical gatekeeping" effect, where retrieval remains partially constrained by surface vocabulary overlap. These findings highlight both the potential and the limitations of semantic retrieval for analyzing the circulation of ideas in large historical corpora. The data is available at https://github.com/COMHIS/locke-sim-data.
- Abstract(参考訳): デジタル化されたコーパスは知的伝達の研究を変革してきたが、現在の手法は語彙的テキストの再利用の検出、動詞の引用の抽出に大きく依存しているが、パラフレーズや複雑な暗黙のエンゲージメントは基本的に欠落している。
本稿では,ジョン・ロックの基礎研究の受容を通じて,18世紀の知的歴史における意味探索を評価する。
セマンティックな分類法を基礎とした専門家アノテーションを用いて, セマンティック・サーチ・パイプラインが, 語彙的手法で見落とされた意味レベルの対応を提示できるかどうかを検証した。
その結果,意味探索は語彙ベースラインよりもかなり暗黙的な応答を得られることがわかった。
しかし、言語診断は「語彙ゲートキーピング」効果も示しており、検索は表層語彙の重なりによって部分的に制限されている。
これらの知見は、大規模な歴史的コーパスにおけるアイデアの循環を分析するための意味検索の可能性と限界の両方を浮き彫りにした。
データはhttps://github.com/COMHIS/locke-sim-dataで入手できる。
関連論文リスト
- Loci Similes: A Benchmark for Extracting Intertextualities in Latin Literature [4.132158161225706]
Loci Similesは、古代後期の著者と古典作家のコーパスをリンクする545人の専門家による検証された並列を含む172kテキストセグメントのキュレートされたデータセットからなるラテン語のテクスチュアリティ検出のベンチマークである。
我々は,最先端のLLMを用いた文間関係の検索と分類のベースラインを確立する。
論文 参考訳(メタデータ) (2026-01-12T13:34:49Z) - SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation [55.26111461168754]
本稿では,文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチであるSemantic Metric Integrating Lexical Exactnessを紹介する。
人間の判断と計算学的に軽量であり、語彙的評価と意味的評価のギャップを埋める。
論文 参考訳(メタデータ) (2025-11-21T17:30:18Z) - PairSem: LLM-Guided Pairwise Semantic Matching for Scientific Document Retrieval [41.064644438540135]
Pairwise Semantic Matching (PairSem)は、関連するセマンティクスをエンティティとアスペクトのペアとして表現するフレームワークである。
複数のデータセットとレトリバーの実験により、PairSemは検索性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-10T22:21:49Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Constructing Vec-tionaries to Extract Message Features from Texts: A
Case Study of Moral Appeals [5.336592570916432]
本稿では,単語埋め込みによる検証辞書を向上するベクタリー測度ツールの構築手法を提案する。
vec-tionaryは、テキストの強みを超えてメッセージ機能のあいまいさを捉えるために、追加のメトリクスを生成することができる。
論文 参考訳(メタデータ) (2023-12-10T20:37:29Z) - Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。