論文の概要: Explainable identification of similarities between entities for discovery in large text
- arxiv url: http://arxiv.org/abs/2503.17605v1
- Date: Sat, 22 Mar 2025 01:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:12.828859
- Title: Explainable identification of similarities between entities for discovery in large text
- Title(参考訳): 大規模テキストにおける発見のためのエンティティ間の類似性の説明可能な識別
- Authors: Akhil Joshi, Sai Teja Erukude, Lior Shamir,
- Abstract要約: 本研究では,文書の自動比較と説明可能な類似性を明らかにするため,n-gram解析フレームワークを開発した。
評価式を適用して各n-gramを重み付けし、n-gramが両方の文書でより頻度が高いときに重みを高くする。
ワードクラウドのような可視化ツールは、これらのパターンの表現を強化し、より明確な洞察を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With the availability of virtually infinite number text documents in digital format, automatic comparison of textual data is essential for extracting meaningful insights that are difficult to identify manually. Many existing tools, including AI and large language models, struggle to provide precise and explainable insights into textual similarities. In many cases they determine the similarity between documents as reflected by the text, rather than the similarities between the subjects being discussed in these documents. This study addresses these limitations by developing an n-gram analysis framework designed to compare documents automatically and uncover explainable similarities. A scoring formula is applied to assigns each of the n-grams with a weight, where the weight is higher when the n-grams are more frequent in both documents, but is penalized when the n-grams are more frequent in the English language. Visualization tools like word clouds enhance the representation of these patterns, providing clearer insights. The findings demonstrate that this framework effectively uncovers similarities between text documents, offering explainable insights that are often difficult to identify manually. This non-parametric approach provides a deterministic solution for identifying similarities across various fields, including biographies, scientific literature, historical texts, and more. Code for the method is publicly available.
- Abstract(参考訳): 事実上無限個のテキストドキュメントをデジタル形式で利用できるようになれば、手動で識別しにくい意味のある洞察を抽出するためには、テキストデータの自動比較が不可欠である。
AIや大規模言語モデルなど、既存のツールの多くは、テキストの類似性に関する正確で説明可能な洞察の提供に苦労している。
多くの場合、これらの文書で議論されている主題間の類似性ではなく、テキストで反映された文書間の類似性を決定する。
本研究は、文書の自動比較と説明可能な類似性を明らかにするために設計されたn-gram解析フレームワークを開発することにより、これらの制約に対処する。
評価式を適用して、各n-gramを重み付けし、n-gramが両方の文書でより頻繁なときに重みが高くなるが、n-gramが英語でより頻繁な場合にはペナル化される。
ワードクラウドのような可視化ツールは、これらのパターンの表現を強化し、より明確な洞察を提供する。
その結果,本フレームワークは文書間の類似性を効果的に明らかにし,手動で識別することがしばしば困難である説明可能な洞察を提供することがわかった。
この非パラメトリックなアプローチは、伝記、科学文献、歴史文書など、様々な分野の類似性を特定するための決定論的ソリューションを提供する。
メソッドのコードは公開されています。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。
これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。
この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:26:14Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Neural Graph Matching for Modification Similarity Applied to Electronic
Document Comparison [0.0]
文書比較は法律や金融業界で一般的な課題である。
本稿では,文書比較に応用した新しいニューラルグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2022-04-12T02:37:54Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - Comparative Analysis of N-gram Text Representation on Igbo Text Document
Similarity [0.0]
情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。
ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。
論文 参考訳(メタデータ) (2020-04-01T12:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。