論文の概要: Mining Asymmetric Intertextuality
- arxiv url: http://arxiv.org/abs/2410.15145v1
- Date: Sat, 19 Oct 2024 16:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:31:05.659629
- Title: Mining Asymmetric Intertextuality
- Title(参考訳): マイニング非対称なテクスト間性
- Authors: Pak Kin Lau, Stuart Michael McManus,
- Abstract要約: 非対称的テクスト間性(英: Asymmetric intertextuality)とは、テキスト間の一方的な関係を指す。
非対称なテクスチュアリティをマイニングするためのスケーラブルで適応的なアプローチを提案する。
本システムでは, 直接引用からパラフレーズ化, 文書間影響に至るまで, 様々なレベルのテクスト間関係を扱う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces a new task in Natural Language Processing (NLP) and Digital Humanities (DH): Mining Asymmetric Intertextuality. Asymmetric intertextuality refers to one-sided relationships between texts, where one text cites, quotes, or borrows from another without reciprocation. These relationships are common in literature and historical texts, where a later work references aclassical or older text that remain static. We propose a scalable and adaptive approach for mining asymmetric intertextuality, leveraging a split-normalize-merge paradigm. In this approach, documents are split into smaller chunks, normalized into structured data using LLM-assisted metadata extraction, and merged during querying to detect both explicit and implicit intertextual relationships. Our system handles intertextuality at various levels, from direct quotations to paraphrasing and cross-document influence, using a combination of metadata filtering, vector similarity search, and LLM-based verification. This method is particularly well-suited for dynamically growing corpora, such as expanding literary archives or historical databases. By enabling the continuous integration of new documents, the system can scale efficiently, making it highly valuable for digital humanities practitioners in literacy studies, historical research and related fields.
- Abstract(参考訳): 本稿では,NLP(Natural Language Processing)とDH(Digital Humanities)の新たな課題について紹介する。
非対称的テクスト間性(英: Asymmetric intertextuality)とは、テキスト間の一方的な関係をいう。
これらの関係は文学や歴史文献でよく見られるもので、後の作品では非古典的あるいは古いテキストが静的に参照されている。
分割正規化・マージのパラダイムを利用して非対称なテクスチャリティをマイニングするためのスケーラブルで適応的なアプローチを提案する。
このアプローチでは、文書を小さなチャンクに分割し、LLM支援メタデータ抽出を用いて構造化データに正規化し、クエリ中にマージすることで、明示的および暗黙的なテキスト間関係の両方を検出する。
本システムでは,メタデータフィルタリング,ベクトル類似度探索,LLMに基づく検証を組み合わせることで,直接引用からパラフレーズ化,文書間影響に至るまで,さまざまなレベルのテクスチュアリティを処理している。
この方法は、文学的アーカイブや歴史データベースの拡大など、動的に成長するコーパスに特に適している。
新たな文書の連続的な統合を可能にすることにより,デジタル・ヒューマニティの実践者にとって,リテラシー研究,歴史研究,関連分野において非常に価値の高いスケールが可能となる。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Explaining Relationships Among Research Papers [14.223038413516685]
本稿では,よりリッチな引用テキストを生成するための機能ベースのLLMプロンプト手法を提案する。
人間の好みと統合的書き方の間には強い相関関係がみられ,高いレベルの抽象的引用を好むことが示唆された。
論文 参考訳(メタデータ) (2024-02-20T23:38:39Z) - BBScore: A Brownian Bridge Based Metric for Assessing Text Coherence [20.507596002357655]
コヒーレントテキストは本質的に文間の連続的かつ密着的な相互作用を示す。
BBScore(英: BBScore)は、ブラウン橋理論において、テキストコヒーレンスを評価するための基準のない計量である。
論文 参考訳(メタデータ) (2023-12-28T08:34:17Z) - A Comprehensive Survey of Document-level Relation Extraction (2016-2023) [3.0204640945657326]
文書レベルの関係抽出(DocRE)は自然言語処理(NLP)研究の活発な領域である
本稿では,この分野における最近の進歩を包括的に概観し,文レベルの関係抽出と比較して,その適用方法の相違点を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2023-09-28T12:43:32Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Nutribullets Hybrid: Multi-document Health Summarization [36.95954983680022]
本稿では,入力文書の類似性と矛盾を強調する比較要約を生成する手法を提案する。
私たちのフレームワークは、より忠実で関連性があり、集約に敏感な要約につながります。
論文 参考訳(メタデータ) (2021-04-08T01:44:29Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。