論文の概要: Vietnamese Legal Information Retrieval in Question-Answering System
- arxiv url: http://arxiv.org/abs/2409.13699v1
- Date: Thu, 05 Sep 2024 02:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 16:25:09.853201
- Title: Vietnamese Legal Information Retrieval in Question-Answering System
- Title(参考訳): ベトナムにおける質問応答システムにおける法的情報検索
- Authors: Thiem Nguyen Ba, Vinh Doan The, Tung Pham Quang, Toan Tran Van,
- Abstract要約: Retrieval Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上に大きく貢献している。
しかしながら、RAGはいくつかの課題のためにベトナム語に適用されると、しばしば不足する。
本報告では,これらの課題に対処するための3つの主な修正点を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In the modern era of rapidly increasing data volumes, accurately retrieving and recommending relevant documents has become crucial in enhancing the reliability of Question Answering (QA) systems. Recently, Retrieval Augmented Generation (RAG) has gained significant recognition for enhancing the capabilities of large language models (LLMs) by mitigating hallucination issues in QA systems, which is particularly beneficial in the legal domain. Various methods, such as semantic search using dense vector embeddings or a combination of multiple techniques to improve results before feeding them to LLMs, have been proposed. However, these methods often fall short when applied to the Vietnamese language due to several challenges, namely inefficient Vietnamese data processing leading to excessive token length or overly simplistic ensemble techniques that lead to instability and limited improvement. Moreover, a critical issue often overlooked is the ordering of final relevant documents which are used as reference to ensure the accuracy of the answers provided by LLMs. In this report, we introduce our three main modifications taken to address these challenges. First, we explore various practical approaches to data processing to overcome the limitations of the embedding model. Additionally, we enhance Reciprocal Rank Fusion by normalizing order to combine results from keyword and vector searches effectively. We also meticulously re-rank the source pieces of information used by LLMs with Active Retrieval to improve user experience when refining the information generated. In our opinion, this technique can also be considered as a new re-ranking method that might be used in place of the traditional cross encoder. Finally, we integrate these techniques into a comprehensive QA system, significantly improving its performance and reliability
- Abstract(参考訳): データ量の増加が急速に進んでいる現代では、質問回答システム(QA)の信頼性を高めるために、関連文書を正確に検索・推薦することが重要になっている。
近年,大規模言語モデル(LLM)の能力向上に寄与し,特に法的領域において有益であるQAシステムにおける幻覚の緩和が注目されている。
密接なベクトル埋め込みを用いたセマンティックサーチや、LSMに供給する前に結果を改善するための複数の手法の組み合わせなど、様々な手法が提案されている。
しかしながら、これらの手法はベトナム語に適用すると、過度なトークン長につながる非効率なベトナムのデータ処理や、不安定性と限定的な改善をもたらす過度に単純化されたアンサンブル技術など、いくつかの課題により、しばしば不足する。
さらに、しばしば見落とされがちな問題は、LLMの回答の正確性を保証するために参照として使用される最終関連文書の順序付けである。
本稿では,これらの課題に対処するための3つの主な修正点を紹介する。
まず、埋め込みモデルの限界を克服するために、データ処理に対する様々な実践的アプローチについて検討する。
さらに、キーワードとベクトル検索の結果を効果的に組み合わせる順序を正規化することにより、相互ランクフュージョンを強化する。
また,LLMがActive Retrievalで使用している情報のソースを慎重に再ランクし,生成した情報を精査する際のユーザエクスペリエンスを向上させる。
我々の意見では、この手法は従来のクロスエンコーダの代わりに使われるかもしれない新しい階層化手法とも考えられる。
最後に、これらのテクニックを総合的なQAシステムに統合し、性能と信頼性を大幅に向上させる。
関連論文リスト
- Reinforced Information Retrieval [35.0424269986952]
textbfReinforced-IRは、事前学習した検索器とジェネレータを併用して正確なクロスドメイン検索を行う新しい手法である。
Reinforced-IRの重要なイノベーションは textbfSelf-Boosting フレームワークである。
我々の実験では、Reinforced-IRは既存のドメイン適応手法を大きなマージンで上回り、広範囲のアプリケーションシナリオで検索品質が大幅に向上した。
論文 参考訳(メタデータ) (2025-02-17T08:52:39Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Meta Knowledge for Retrieval Augmented Large Language Models [0.0]
大規模言語モデル(LLM)のための新しいデータ中心型RAGワークフローを提案する。
提案手法は,各文書にメタデータと合成質問文(QA)を生成することに依存する。
合成質問マッチングによる拡張クエリの使用は、従来のRAGパイプラインよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-08-16T20:55:21Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Improving Retrieval for RAG based Question Answering Models on Financial Documents [0.046603287532620746]
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。
高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
論文 参考訳(メタデータ) (2024-03-23T00:49:40Z) - Re-Search for The Truth: Multi-round Retrieval-augmented Large Language Models are Strong Fake News Detectors [38.75533934195315]
大きな言語モデル(LLM)はその顕著な推論と生成能力で知られている。
クレーム検証のための Web ソースからキーエビデンスを自動的に戦略的に抽出する,新たな LLM フレームワークについて紹介する。
我々の枠組みは十分な証拠の取得を保証し、性能を向上させる。
論文 参考訳(メタデータ) (2024-03-14T00:35:39Z) - BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering [58.403898834018285]
BlendFilterは、知識フィルタリングと組み合わせたクエリ生成を統合することで、検索強化された大規模言語モデルを高める新しいアプローチである。
我々は3つのオープンドメイン質問応答ベンチマークで広範な実験を行い、我々の革新的なBlendFilterが最先端のベースラインをはるかに上回っていることを明らかにした。
論文 参考訳(メタデータ) (2024-02-16T23:28:02Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。