論文の概要: Unsupervised Identification of Relevant Prior Cases
- arxiv url: http://arxiv.org/abs/2107.08973v1
- Date: Mon, 19 Jul 2021 15:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 17:49:22.673087
- Title: Unsupervised Identification of Relevant Prior Cases
- Title(参考訳): 関連する先行事例の教師なし識別
- Authors: Shivangi Bithel, Sumitra S Malagi
- Abstract要約: 本稿では,あるクエリケースに対して,関連する前例を特定するタスクを解くために,異なる教師なしアプローチを提案する。
提案手法は, word2vec, doc2vec, sent2vec などの単語埋め込みを用いて,TF-IDF を用いてコサイン類似性を発見し,BM25 スコアを用いて関連文書を検索し,事前学習したモデルと SBERT を用いて最も類似した文書を検索する。
比較分析の結果, TF-IDFスコアをBM25スコアに乗じると, 最高の結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document retrieval has taken its role in almost all domains of knowledge
understanding, including the legal domain. Precedent refers to a court decision
that is considered as authority for deciding subsequent cases involving
identical or similar facts or similar legal issues. In this work, we propose
different unsupervised approaches to solve the task of identifying relevant
precedents to a given query case. Our proposed approaches are using word
embeddings like word2vec, doc2vec, and sent2vec, finding cosine similarity
using TF-IDF, retrieving relevant documents using BM25 scores, using the
pre-trained model and SBERT to find the most similar document, and using the
product of BM25 and TF-IDF scores to find the most relevant document for a
given query. We compared all the methods based on precision@10, recall@10, and
MRR. Based on the comparative analysis, we found that the TF-IDF score
multiplied by the BM25 score gives the best result. In this paper, we have also
presented the analysis that we did to improve the BM25 score.
- Abstract(参考訳): 文書検索は、法的領域を含むほとんどすべての知識理解領域において役割を担っている。
前例とは、同一または類似の事実または類似の法的問題を含む後続の事件を決定する権限と見なされる裁判所の判断をいう。
本研究では,あるクエリーケースに関連性のある前例を特定するタスクを解くために,異なる教師なしアプローチを提案する。
提案手法はword2vec,doc2vec,send2vecなどの単語埋め込みを用いて,tf-idfを用いたコサイン類似度の検出,bm25スコアを用いた関連文書の検索,事前学習モデルとsbertを用いた最も類似したドキュメントの検索,bm25とtf-idfスコアの積を用いたクエリの最も関連するドキュメントの検索である。
精度@10, recall@10, MRR に基づくすべてのメソッドを比較した。
比較分析の結果, TF-IDFスコアをBM25スコアに乗じた結果が最もよいことがわかった。
本稿では,bm25得点を改善するために行った分析についても述べる。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Eider: Evidence-enhanced Document-level Relation Extraction [56.71004595444816]
文書レベルの関係抽出(DocRE)は、文書内のエンティティペア間の意味関係を抽出することを目的としている。
本稿では,共同関係と証拠抽出,エビデンス中心関係抽出(RE),抽出結果の融合からなる3段階のエビデンス強化DocREフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T09:43:16Z) - Aspect-based Document Similarity for Research Papers [4.661692753666685]
文書分類タスクのペア化によってアスペクト情報との類似性を拡張する。
研究論文のアスペクトベースの文書類似性を評価する。
以上の結果から,SciBERTは最高の演奏システムであることがわかった。
論文 参考訳(メタデータ) (2020-10-13T13:51:21Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z) - Semantic Sensitive TF-IDF to Determine Word Relevance in Documents [0.0]
STF-IDF は TF-IDF をベースとした新しい意味論的手法であり,コーパス内の非公式文書の単語重要度を評価する。
提案手法は,TF-IDF平均誤差率を50%,平均誤差率13.7%まで下げることに成功した。
論文 参考訳(メタデータ) (2020-01-06T00:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。