論文の概要: Loci Similes: A Benchmark for Extracting Intertextualities in Latin Literature
- arxiv url: http://arxiv.org/abs/2601.07533v1
- Date: Mon, 12 Jan 2026 13:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.412037
- Title: Loci Similes: A Benchmark for Extracting Intertextualities in Latin Literature
- Title(参考訳): Loci Similes:ラテン文学における文間性抽出ベンチマーク
- Authors: Julian Schelb, Michael Wittweiler, Marie Revellio, Barbara Feichtinger, Andreas Spitz,
- Abstract要約: Loci Similesは、古代後期の著者と古典作家のコーパスをリンクする545人の専門家による検証された並列を含む172kテキストセグメントのキュレートされたデータセットからなるラテン語のテクスチュアリティ検出のベンチマークである。
我々は,最先端のLLMを用いた文間関係の検索と分類のベースラインを確立する。
- 参考スコア(独自算出の注目度): 4.132158161225706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tracing connections between historical texts is an important part of intertextual research, enabling scholars to reconstruct the virtual library of a writer and identify the sources influencing their creative process. These intertextual links manifest in diverse forms, ranging from direct verbatim quotations to subtle allusions and paraphrases disguised by morphological variation. Language models offer a promising path forward due to their capability of capturing semantic similarity beyond lexical overlap. However, the development of new methods for this task is held back by the scarcity of standardized benchmarks and easy-to-use datasets. We address this gap by introducing Loci Similes, a benchmark for Latin intertextuality detection comprising of a curated dataset of ~172k text segments containing 545 expert-verified parallels linking Late Antique authors to a corpus of classical authors. Using this data, we establish baselines for retrieval and classification of intertextualities with state-of-the-art LLMs.
- Abstract(参考訳): 歴史的テキスト間のつながりの追跡はテキスト間研究の重要な部分であり、研究者は著者の仮想図書館を再構築し、創造過程に影響を与える資料を特定できる。
これらのテキスト間リンクは、直訳引用から微妙な言い回しや形態変化に変装したパラフレーズまで、多様な形態で表される。
言語モデルは、語彙オーバーラップを越えて意味的類似性をキャプチャする能力のために、将来性のあるパスを提供する。
しかし、このタスクのための新しいメソッドの開発は、標準化されたベンチマークと使いやすいデータセットの不足に支えられている。
Loci Similesは古典作家のコーパスにリンクする545人の専門家による検証済みのパラレルを含む172kテキストセグメントのキュレートされたデータセットからなるラテン語のテクスチュアリティ検出のベンチマークである。
このデータを用いて,現状のLLMを用いた文間関係の検索と分類のためのベースラインを確立する。
関連論文リスト
- StyleDecipher: Robust and Explainable Detection of LLM-Generated Texts with Stylistic Analysis [18.44456241158174]
StyleDecipherは堅牢で説明可能な検出フレームワークである。
組み合わせた特徴抽出器を用いてテキスト検出を再検討し、構造的差異を定量化する。
常に最先端のドメイン内精度を達成する。
論文 参考訳(メタデータ) (2025-10-14T15:07:27Z) - Mining Asymmetric Intertextuality [0.0]
非対称的テクスト間性(英: Asymmetric intertextuality)とは、テキスト間の一方的な関係を指す。
非対称なテクスチュアリティをマイニングするためのスケーラブルで適応的なアプローチを提案する。
本システムでは, 直接引用からパラフレーズ化, 文書間影響に至るまで, 様々なレベルのテクスト間関係を扱う。
論文 参考訳(メタデータ) (2024-10-19T16:12:22Z) - Investigating Expert-in-the-Loop LLM Discourse Patterns for Ancient Intertextual Analysis [0.0]
この研究は、大きな言語モデルがテキスト間の直接引用、暗示、エコーを検出することを実証している。
このモデルは、長いクエリパスと、偽のテキスト間の依存を含めることに苦労する。
提案するプリンシパル・イン・ザ・ループ手法は、テキスト間研究にスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T13:23:11Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Latin writing styles analysis with Machine Learning: New approach to old
questions [0.0]
中世のテキストは、世代から世代までのコミュニケーション手段を用いて、心から学び、普及した。
ラテン語で書かれた文学の特定の構成を考慮に入れれば、特定の物語テキストの親しみやすい情報源の確率パターンを探索し、示すことができる。
論文 参考訳(メタデータ) (2021-09-01T20:21:45Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。