論文の概要: Vietnamese Legal Information Retrieval in Question-Answering System
- arxiv url: http://arxiv.org/abs/2409.13699v1
- Date: Thu, 05 Sep 2024 02:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 16:25:09.853201
- Title: Vietnamese Legal Information Retrieval in Question-Answering System
- Title(参考訳): ベトナムにおける質問応答システムにおける法的情報検索
- Authors: Thiem Nguyen Ba, Vinh Doan The, Tung Pham Quang, Toan Tran Van,
- Abstract要約: Retrieval Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上に大きく貢献している。
しかしながら、RAGはいくつかの課題のためにベトナム語に適用されると、しばしば不足する。
本報告では,これらの課題に対処するための3つの主な修正点を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In the modern era of rapidly increasing data volumes, accurately retrieving and recommending relevant documents has become crucial in enhancing the reliability of Question Answering (QA) systems. Recently, Retrieval Augmented Generation (RAG) has gained significant recognition for enhancing the capabilities of large language models (LLMs) by mitigating hallucination issues in QA systems, which is particularly beneficial in the legal domain. Various methods, such as semantic search using dense vector embeddings or a combination of multiple techniques to improve results before feeding them to LLMs, have been proposed. However, these methods often fall short when applied to the Vietnamese language due to several challenges, namely inefficient Vietnamese data processing leading to excessive token length or overly simplistic ensemble techniques that lead to instability and limited improvement. Moreover, a critical issue often overlooked is the ordering of final relevant documents which are used as reference to ensure the accuracy of the answers provided by LLMs. In this report, we introduce our three main modifications taken to address these challenges. First, we explore various practical approaches to data processing to overcome the limitations of the embedding model. Additionally, we enhance Reciprocal Rank Fusion by normalizing order to combine results from keyword and vector searches effectively. We also meticulously re-rank the source pieces of information used by LLMs with Active Retrieval to improve user experience when refining the information generated. In our opinion, this technique can also be considered as a new re-ranking method that might be used in place of the traditional cross encoder. Finally, we integrate these techniques into a comprehensive QA system, significantly improving its performance and reliability
- Abstract(参考訳): データ量の増加が急速に進んでいる現代では、質問回答システム(QA)の信頼性を高めるために、関連文書を正確に検索・推薦することが重要になっている。
近年,大規模言語モデル(LLM)の能力向上に寄与し,特に法的領域において有益であるQAシステムにおける幻覚の緩和が注目されている。
密接なベクトル埋め込みを用いたセマンティックサーチや、LSMに供給する前に結果を改善するための複数の手法の組み合わせなど、様々な手法が提案されている。
しかしながら、これらの手法はベトナム語に適用すると、過度なトークン長につながる非効率なベトナムのデータ処理や、不安定性と限定的な改善をもたらす過度に単純化されたアンサンブル技術など、いくつかの課題により、しばしば不足する。
さらに、しばしば見落とされがちな問題は、LLMの回答の正確性を保証するために参照として使用される最終関連文書の順序付けである。
本稿では,これらの課題に対処するための3つの主な修正点を紹介する。
まず、埋め込みモデルの限界を克服するために、データ処理に対する様々な実践的アプローチについて検討する。
さらに、キーワードとベクトル検索の結果を効果的に組み合わせる順序を正規化することにより、相互ランクフュージョンを強化する。
また,LLMがActive Retrievalで使用している情報のソースを慎重に再ランクし,生成した情報を精査する際のユーザエクスペリエンスを向上させる。
我々の意見では、この手法は従来のクロスエンコーダの代わりに使われるかもしれない新しい階層化手法とも考えられる。
最後に、これらのテクニックを総合的なQAシステムに統合し、性能と信頼性を大幅に向上させる。
関連論文リスト
- Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - CoTKR: Chain-of-Thought Enhanced Knowledge Rewriting for Complex Knowledge Graph Question Answering [33.89497991289916]
そこで本研究では,新たな書込み手法であるCoTKRを提案し,推論トレースとそれに対応する知識をインターリーブ方式で生成する。
我々は,様々な知識グラフ質問回答 (KGQA) ベンチマークを用いて,様々な言語モデル (LLM) を用いて実験を行う。
論文 参考訳(メタデータ) (2024-09-29T16:08:45Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation [49.36436704082436]
ハウツー質問は意思決定プロセスに不可欠なものであり、動的でステップバイステップの回答を必要とする。
我々は,現在のシステムがハウツー質問をより効果的に扱えるようにするための新しいデータ組織パラダイムThreadを提案する。
論文 参考訳(メタデータ) (2024-06-19T09:14:41Z) - MrRank: Improving Question Answering Retrieval System through Multi-Result Ranking Model [4.173772253427094]
大型言語モデル(LLM)は幻覚や古い情報に悩まされることが多い。
これを解決するために、情報検索(IR)システムを使用して、最新の知識を持つLLMを拡張できる。
異種赤外線システムを組み合わせた学習からランクへのアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-09T11:00:01Z) - Improving Retrieval for RAG based Question Answering Models on Financial Documents [0.046603287532620746]
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。
高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
論文 参考訳(メタデータ) (2024-03-23T00:49:40Z) - Re-Search for The Truth: Multi-round Retrieval-augmented Large Language Models are Strong Fake News Detectors [38.75533934195315]
大きな言語モデル(LLM)はその顕著な推論と生成能力で知られている。
クレーム検証のための Web ソースからキーエビデンスを自動的に戦略的に抽出する,新たな LLM フレームワークについて紹介する。
我々の枠組みは十分な証拠の取得を保証し、性能を向上させる。
論文 参考訳(メタデータ) (2024-03-14T00:35:39Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering [58.403898834018285]
BlendFilterは、知識フィルタリングと組み合わせたクエリ生成を統合することで、検索強化された大規模言語モデルを高める新しいアプローチである。
我々は3つのオープンドメイン質問応答ベンチマークで広範な実験を行い、我々の革新的なBlendFilterが最先端のベースラインをはるかに上回っていることを明らかにした。
論文 参考訳(メタデータ) (2024-02-16T23:28:02Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。