論文の概要: Poly-Vector Retrieval: Reference and Content Embeddings for Legal Documents
- arxiv url: http://arxiv.org/abs/2504.10508v1
- Date: Wed, 09 Apr 2025 17:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:52.729060
- Title: Poly-Vector Retrieval: Reference and Content Embeddings for Legal Documents
- Title(参考訳): Poly-Vector Retrieval: 法的文書の参照とコンテンツ埋め込み
- Authors: João Alberto de Oliveira Lima,
- Abstract要約: 法的文脈では、ユーザーは自分のコンテンツではなく、ラベルやあだ名によってしばしばノルムを参照する。
本稿では,各法則に複数の異なる埋め込みを割り当てるポリレトリヴァルについて述べる。
ラベル中心のクエリの検索精度を大幅に向上し、内部および外部の参照を解決できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as an effective paradigm for generating contextually accurate answers by integrating Large Language Models (LLMs) with retrieval mechanisms. However, in legal contexts, users frequently reference norms by their labels or nicknames (e.g., Article 5 of the Constitution or Consumer Defense Code (CDC)), rather than by their content, posing challenges for traditional RAG approaches that rely solely on semantic embeddings of text. Furthermore, legal texts themselves heavily rely on explicit cross-references (e.g., "pursuant to Article 34") that function as pointers. Both scenarios pose challenges for traditional RAG approaches that rely solely on semantic embeddings of text, often failing to retrieve the necessary referenced content. This paper introduces Poly-Vector Retrieval, a method assigning multiple distinct embeddings to each legal provision: one embedding captures the content (the full text), another captures the label (the identifier or proper name), and optionally additional embeddings capture alternative denominations. Inspired by Frege's distinction between Sense and Reference, this poly-vector retrieval approach treats labels, identifiers and reference markers as rigid designators and content embeddings as carriers of semantic substance. Experiments on the Brazilian Federal Constitution demonstrate that Poly-Vector Retrieval significantly improves retrieval accuracy for label-centric queries and potential to resolve internal and external cross-references, without compromising performance on purely semantic queries. The study discusses philosophical and practical implications of explicitly separating reference from content in vector embeddings and proposes future research directions for applying this approach to broader legal datasets and other domains characterized by explicit reference identifiers.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は,Large Language Models (LLM) と検索機構を統合することで,文脈的に正確な回答を生成するための効果的なパラダイムとして登場した。
しかし、法的文脈では、ユーザーはコンテンツではなくラベルやニックネーム(例えば、憲法や消費者防衛法第5条)による規範を参照し、テキストのセマンティック埋め込みにのみ依存する従来のRAGアプローチに挑戦する。
さらに、法的文書そのものは、ポインタとして機能する明示的な相互参照(例:「第34条に反する」)に大きく依存している。
どちらのシナリオも、テキストのセマンティックな埋め込みにのみ依存する従来のRAGアプローチに課題を生じさせる。
本稿では,各法的規定に複数の異なる埋め込みを割り当てる手法であるPoly-Vector Retrievalを紹介した。1つの埋め込みがコンテンツ(全文)をキャプチャし,もう1つの埋め込みがラベル(識別子または固有名)をキャプチャし,任意の埋め込みが代替の識別をキャプチャする。
Fregeのセンスと参照の区別にインスパイアされたこのポリベクター検索手法は、ラベル、識別子、参照マーカーを厳格な指定子として扱い、コンテンツ埋め込みを意味物質のキャリアとして扱う。
ブラジル連邦憲法の実験では、Poly-Vector Retrievalはラベル中心クエリの検索精度を大幅に改善し、純粋にセマンティッククエリのパフォーマンスを損なうことなく、内部および外部の相互参照を解決する可能性を実証している。
本研究は,ベクトル埋め込みにおけるコンテンツからの参照を明示的に分離することの哲学的,実践的な意味を論じ,より広範な法的データセットや明示的な参照識別子を特徴とする他の領域にアプローチを適用するための今後の研究方向を提案する。
関連論文リスト
- QuOTE: Question-Oriented Text Embeddings [8.377715521597292]
QuOTE(Question-Oriented Text Embeddings)は、検索強化世代(RAG)システムへの新たな拡張である。
従来のRAGパイプラインとは異なり、QuOTEは、チャンクが潜在的に答えうる仮説的な質問でチャンクを拡張する。
マルチホップ質問応答タスクを含め,QuOTEは検索精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-02-16T03:37:13Z) - Unlocking Legal Knowledge with Multi-Layered Embedding-Based Retrieval [0.0]
本稿では,法的および立法的テキストに対する多層埋め込みに基づく検索手法を提案する。
提案手法は,検索型拡張生成システムに正確な応答を提供することによって,様々な情報要求を満たす。
論文 参考訳(メタデータ) (2024-11-12T12:03:57Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation [18.806738617249426]
Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:07:38Z) - Prompt-RAG: Pioneering Vector Embedding-Free Retrieval-Augmented
Generation in Niche Domains, Exemplified by Korean Medicine [5.120567378386615]
ニッチドメインにおける生成型大規模言語モデル(LLM)の性能を高めるために,自然言語プロンプトに基づく検索拡張(Prompt-RAG)を提案する。
我々は,韓国医学(KM)および標準医学(CM)文書のベクトル埋め込みを比較し,KM文書埋め込みがトークン重複とより相関し,人為的な文書関連性が低いことを見出した。
その結果,Prompt-RAG は ChatGPT や従来のベクトル埋め込み型RAG などの既存モデルよりも関連性,情報性に優れていた。
論文 参考訳(メタデータ) (2024-01-20T14:59:43Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Rhetorical Role Labeling of Legal Documents using Transformers and Graph
Neural Networks [1.290382979353427]
本稿では,SemEval Task 6の一部として,インドの裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。
論文 参考訳(メタデータ) (2023-05-06T17:04:51Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。