論文の概要: Automatic Detection of Complex Quotation Patterns in Aggadic Literature
- arxiv url: http://arxiv.org/abs/2512.23504v1
- Date: Mon, 29 Dec 2025 14:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.542903
- Title: Automatic Detection of Complex Quotation Patterns in Aggadic Literature
- Title(参考訳): アガディック文学における複雑な引用パターンの自動検出
- Authors: Hadar Miller, Tsvi Kuflik, Moshe Lavee,
- Abstract要約: 本稿では,ラビ語文学における聖書引用の自動検出のための新しい3段階アルゴリズムACTを提案する。
提案手法は,Dicta,Passim,Text-Matcher,および人間注釈クリティカルエディションなど,主要なシステムに対して評価された。
引用検出の改善に加えて、コーパスをまたいでスタイリスティックなパターンを分類するACTの能力は、ジャンル分類とテクスト間分析のための新しい道を開く。
- 参考スコア(独自算出の注目度): 0.9476463361600828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents ACT (Allocate Connections between Texts), a novel three-stage algorithm for the automatic detection of biblical quotations in Rabbinic literature. Unlike existing text reuse frameworks that struggle with short, paraphrased, or structurally embedded quotations, ACT combines a morphology-aware alignment algorithm with a context-sensitive enrichment stage that identifies complex citation patterns such as "Wave" and "Echo" quotations. Our approach was evaluated against leading systems, including Dicta, Passim, Text-Matcher, as well as human-annotated critical editions. We further assessed three ACT configurations to isolate the contribution of each component. Results demonstrate that the full ACT pipeline (ACT-QE) outperforms all baselines, achieving an F1 score of 0.91, with superior Recall (0.89) and Precision (0.94). Notably, ACT-2, which lacks stylistic enrichment, achieves higher Recall (0.90) but suffers in Precision, while ACT-3, using longer n-grams, offers a tradeoff between coverage and specificity. In addition to improving quotation detection, ACT's ability to classify stylistic patterns across corpora opens new avenues for genre classification and intertextual analysis. This work contributes to digital humanities and computational philology by addressing the methodological gap between exhaustive machine-based detection and human editorial judgment. ACT lays a foundation for broader applications in historical textual analysis, especially in morphologically rich and citation-dense traditions like Aggadic literature.
- Abstract(参考訳): 本稿では,ラビ語文学における聖書引用の自動検出のための新しい3段階アルゴリズムであるACT(Allocate Connections between Texts)を提案する。
短い、言い換えられた、あるいは構造的に組み込まれた引用に苦しむ既存のテキスト再利用フレームワークとは異なり、ACTは、形態学的に認識されたアライメントアルゴリズムと、"Wave"や"Echo"のような複雑な引用パターンを識別するコンテキスト依存のエンリッチメントステージを組み合わせている。
提案手法は,Dicta,Passim,Text-Matcher,および人間注釈クリティカルエディションなど,主要なシステムに対して評価された。
さらに、各コンポーネントのコントリビューションを分離するために、3つのACT構成を評価した。
その結果、ACTパイプライン(ACT-QE)が全てのベースラインを上回り、F1スコアが0.91となり、より優れたリコール(0.89)と精度(0.94)が得られた。
特に、スタイルの豊かさに欠けるACT-2は高いリコール(0.90)を達成するが、より長いn-gramを使用するACT-3は、カバレッジと特異性の間のトレードオフを提供する。
引用検出の改善に加えて、コーパスをまたいでスタイリスティックなパターンを分類するACTの能力は、ジャンル分類とテクスト間分析のための新しい道を開く。
本研究は, 徹底的なマシンベース検出と人文編集判断の方法論的ギャップに対処することによって, デジタル人文科学と計算哲学に寄与する。
ACTは、歴史的テキスト分析、特にアガディック文学のような形態学的に豊かで引用に富んだ伝統において、より広範な応用の基礎を築いている。
関連論文リスト
- StyleDecipher: Robust and Explainable Detection of LLM-Generated Texts with Stylistic Analysis [18.44456241158174]
StyleDecipherは堅牢で説明可能な検出フレームワークである。
組み合わせた特徴抽出器を用いてテキスト検出を再検討し、構造的差異を定量化する。
常に最先端のドメイン内精度を達成する。
論文 参考訳(メタデータ) (2025-10-14T15:07:27Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - HACo-Det: A Study Towards Fine-Grained Machine-Generated Text Detection under Human-AI Coauthoring [14.887491317701997]
本稿では,人間-AI共著者によるMGT検出の可能性について検討する。
より微細な検出器は、数値AI比で、共認可されたテキスト検出への経路を舗装することができることを示唆する。
実験結果から, 平均F1スコア0.462において, 計量法は微粒度検出に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:52:44Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - BBScore: A Brownian Bridge Based Metric for Assessing Text Coherence [18.77248934443666]
コヒーレントテキストは本質的に文間の連続的かつ密着的な相互作用を示す。
BBScore(英: BBScore)は、ブラウン橋理論において、テキストコヒーレンスを評価するための基準のない計量である。
論文 参考訳(メタデータ) (2023-12-28T08:34:17Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment
of Coherence in Generated Texts [15.866519123942457]
自動生成テキストの人間知覚コヒーレンスに関する新しいベンチマークである sc CoheSentia を紹介する。
我々のベンチマークには、自動生成および人称注釈付き500の段落が含まれており、それぞれが両方の方法で注釈付けされている。
解析の結果,インクリメンタルモードにおけるアノテータ間の合意は,総合的な代替よりも高いことがわかった。
論文 参考訳(メタデータ) (2023-10-25T03:21:20Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。