Fugu-MT 論文翻訳(概要): Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery

論文の概要: Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery

arxiv url: http://arxiv.org/abs/2405.19164v1
Date: Wed, 29 May 2024 15:08:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 16:41:25.748885
Title: Learning from Litigation: Graphs and LLMs for Retrieval and Reasoning in eDiscovery
Title（参考訳）: ライシゲーションから学ぶ:eDiscoveryにおける検索と推論のためのグラフとLLM
Authors: Sounak Lahiri, Sumit Pai, Tim Weninger, Sanmitra Bhattacharya,
Abstract要約: 本稿では2つの世界の強みを組み合わせたハイブリッド手法であるDISCOG(Disdiscovery Graph)を紹介する。本手法は,手作業と比較して文書レビューコストを99.9%削減し,LCMに基づく分類法と比較して95%削減する。
参考スコア（独自算出の注目度）: 6.037276428689637
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Electronic Discovery (eDiscovery) involves identifying relevant documents from a vast collection based on legal production requests. The integration of artificial intelligence (AI) and natural language processing (NLP) has transformed this process, helping document review and enhance efficiency and cost-effectiveness. Although traditional approaches like BM25 or fine-tuned pre-trained models are common in eDiscovery, they face performance, computational, and interpretability challenges. In contrast, Large Language Model (LLM)-based methods prioritize interpretability but sacrifice performance and throughput. This paper introduces DISCOvery Graph (DISCOG), a hybrid approach that combines the strengths of two worlds: a heterogeneous graph-based method for accurate document relevance prediction and subsequent LLM-driven approach for reasoning. Graph representational learning generates embeddings and predicts links, ranking the corpus for a given request, and the LLMs provide reasoning for document relevance. Our approach handles datasets with balanced and imbalanced distributions, outperforming baselines in F1-score, precision, and recall by an average of 12%, 3%, and 16%, respectively. In an enterprise context, our approach drastically reduces document review costs by 99.9% compared to manual processes and by 95% compared to LLM-based classification methods
Abstract（参考訳）: Electronic Discovery(eDiscovery)は、法的生産要求に基づいて、膨大なコレクションから関連する文書を識別する。人工知能(AI)と自然言語処理(NLP)の統合は、このプロセスを変革し、文書のレビューを支援し、効率性とコスト効率を向上させる。 BM25や微調整済みモデルのような従来のアプローチはeDiscoveryでは一般的だが、性能、計算、解釈可能性の問題に直面している。対照的に、LLM(Large Language Model)ベースの手法では、解釈性は優先されるが、性能とスループットを犠牲にする。本稿では2つの世界の強みを組み合わせたハイブリッド手法であるDISCOG(DISCOG)について述べる。グラフ表現学習は埋め込みを生成し、リンクを予測し、与えられた要求に対してコーパスをランク付けする。提案手法では,F1スコア,精度,リコールにおいて,平均12%,3%,16%のベースラインをそれぞれ上回るバランスの取れた分布を持つデータセットを処理している。企業環境では、文書レビューのコストは手作業に比べて99.9%削減され、LCMに基づく分類法に比べて95%削減される。

関連論文リスト

Integrated ensemble of BERT- and features-based models for authorship attribution in Japanese literary works [2.624902795082451]
オーサシップ属性(AA)タスクは、テキストから抽出されたスタイリスティックな特徴に基づいた統計データ分析と分類に依存している。本研究では,AAタスクにおける従来の特徴ベース手法と近代的PLM法を組み合わせた統合的アンサンブルを用いて,小さなサンプルにおいて性能を著しく向上することを目的とした。
論文参考訳（メタデータ） (2025-04-11T13:40:50Z)
Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文参考訳（メタデータ） (2025-04-07T15:27:37Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。我々は,既存の勾配法を改良し,大規模に効果的に機能させる。我々は、インプロンプトセットとモデルアウトプットをWebベースの可視化ツールとともにリリースし、影響力のある例を探索します。
論文参考訳（メタデータ） (2024-10-22T20:39:21Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文参考訳（メタデータ） (2024-06-17T21:45:48Z)
Prompt-based vs. Fine-tuned LLMs Toward Causal Graph Verification [0.0]
本研究の目的は,テキストソースを用いた因果グラフの自動検証に自然言語処理(NLP)技術を適用することである。我々は,(1)因果関係分類タスク用に微調整された事前学習言語モデルと(2)プロンプトベースLPMの2種類のNLPモデルの性能を比較した。
論文参考訳（メタデータ） (2024-05-29T09:06:18Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Harnessing the Power of Large Language Model for Uncertainty Aware Graph Processing [24.685942503019948]
本稿では,大言語モデル(LLM)のパワーを生かした新しい手法を提案する。筆者らは,2つのグラフ処理タスク,すなわち知識グラフ補完とグラフ分類について実験を行った。 LLM が生成した回答の正確性を予測するため,10 つのデータセットのうち 7 つに対して 0.8 以上の AUC を達成した。
論文参考訳（メタデータ） (2024-03-31T07:38:39Z)
Adapting LLMs for Efficient, Personalized Information Retrieval: Methods and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文参考訳（メタデータ） (2023-11-21T02:01:01Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
SAIS: Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文参考訳（メタデータ） (2021-09-24T17:37:35Z)
Integrating Semantics and Neighborhood Information with Graph-Driven Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文参考訳（メタデータ） (2021-05-27T11:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。