論文の概要: Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery
- arxiv url: http://arxiv.org/abs/2405.19164v1
- Date: Wed, 29 May 2024 15:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:41:25.748885
- Title: Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery
- Title(参考訳): ライシゲーションから学ぶ:eDiscoveryにおける検索と推論のためのグラフとLLM
- Authors: Sounak Lahiri, Sumit Pai, Tim Weninger, Sanmitra Bhattacharya,
- Abstract要約: 本稿では2つの世界の強みを組み合わせたハイブリッド手法であるDISCOG(Disdiscovery Graph)を紹介する。
本手法は,手作業と比較して文書レビューコストを99.9%削減し,LCMに基づく分類法と比較して95%削減する。
- 参考スコア(独自算出の注目度): 6.037276428689637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Electronic Discovery (eDiscovery) involves identifying relevant documents from a vast collection based on legal production requests. The integration of artificial intelligence (AI) and natural language processing (NLP) has transformed this process, helping document review and enhance efficiency and cost-effectiveness. Although traditional approaches like BM25 or fine-tuned pre-trained models are common in eDiscovery, they face performance, computational, and interpretability challenges. In contrast, Large Language Model (LLM)-based methods prioritize interpretability but sacrifice performance and throughput. This paper introduces DISCOvery Graph (DISCOG), a hybrid approach that combines the strengths of two worlds: a heterogeneous graph-based method for accurate document relevance prediction and subsequent LLM-driven approach for reasoning. Graph representational learning generates embeddings and predicts links, ranking the corpus for a given request, and the LLMs provide reasoning for document relevance. Our approach handles datasets with balanced and imbalanced distributions, outperforming baselines in F1-score, precision, and recall by an average of 12%, 3%, and 16%, respectively. In an enterprise context, our approach drastically reduces document review costs by 99.9% compared to manual processes and by 95% compared to LLM-based classification methods
- Abstract(参考訳): Electronic Discovery(eDiscovery)は、法的生産要求に基づいて、膨大なコレクションから関連する文書を識別する。
人工知能(AI)と自然言語処理(NLP)の統合は、このプロセスを変革し、文書のレビューを支援し、効率性とコスト効率を向上させる。
BM25や微調整済みモデルのような従来のアプローチはeDiscoveryでは一般的だが、性能、計算、解釈可能性の問題に直面している。
対照的に、LLM(Large Language Model)ベースの手法では、解釈性は優先されるが、性能とスループットを犠牲にする。
本稿では2つの世界の強みを組み合わせたハイブリッド手法であるDISCOG(DISCOG)について述べる。
グラフ表現学習は埋め込みを生成し、リンクを予測し、与えられた要求に対してコーパスをランク付けする。
提案手法では,F1スコア,精度,リコールにおいて,平均12%,3%,16%のベースラインをそれぞれ上回るバランスの取れた分布を持つデータセットを処理している。
企業環境では、文書レビューのコストは手作業に比べて99.9%削減され、LCMに基づく分類法に比べて95%削減される。
関連論文リスト
- Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - Prompt-based vs. Fine-tuned LLMs Toward Causal Graph Verification [0.0]
本研究の目的は,テキストソースを用いた因果グラフの自動検証に自然言語処理(NLP)技術を適用することである。
我々は,(1)因果関係分類タスク用に微調整された事前学習言語モデルと(2)プロンプトベースLPMの2種類のNLPモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-05-29T09:06:18Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Harnessing the Power of Large Language Model for Uncertainty Aware Graph Processing [24.685942503019948]
本稿では,大言語モデル(LLM)のパワーを生かした新しい手法を提案する。
筆者らは,2つのグラフ処理タスク,すなわち知識グラフ補完とグラフ分類について実験を行った。
LLM が生成した回答の正確性を予測するため,10 つのデータセットのうち 7 つに対して 0.8 以上の AUC を達成した。
論文 参考訳(メタデータ) (2024-03-31T07:38:39Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。