論文の概要: Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2406.13372v1
- Date: Wed, 19 Jun 2024 09:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 20:22:37.763429
- Title: Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation
- Title(参考訳): Thread: Retrieval Augmented Generationによる質問応答のためのロジックベースのデータオーガナイゼーションパラダイム
- Authors: Kaikai An, Fangkai Yang, Liqun Li, Junting Lu, Sitao Cheng, Lu Wang, Pu Zhao, Lele Cao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang,
- Abstract要約: Threadは、文書を相互接続性に基づいて論理単位に変換する新しいデータ組織パラダイムである。
オープンドメインと産業シナリオにわたる実験では、ThreadがRAGベースのQAシステムで既存のデータ組織パラダイムより優れていることが示されている。
- 参考スコア(独自算出の注目度): 35.2572390484628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current question answering systems leveraging retrieval augmented generation perform well in answering factoid questions but face challenges with non-factoid questions, particularly how-to queries requiring detailed step-by-step instructions and explanations. In this paper, we introduce Thread, a novel data organization paradigm that transforms documents into logic units based on their inter-connectivity. Extensive experiments across open-domain and industrial scenarios demonstrate that Thread outperforms existing data organization paradigms in RAG-based QA systems, significantly improving the handling of how-to questions.
- Abstract(参考訳): 現在の質問応答システムは, ファクトイドな質問に対して, 非ファクトイドな質問, 特にステップバイステップの詳細な指示と説明を必要とするハウツークエリに対処する上で, 有効である。
本稿では,文書を相互接続性に基づいて論理単位に変換する新しいデータ組織パラダイムThreadを紹介する。
オープンドメインと産業シナリオにわたる大規模な実験は、ThreadがRAGベースのQAシステムで既存のデータ組織パラダイムより優れており、ハウツー質問の処理を大幅に改善していることを示している。
関連論文リスト
- Vietnamese Legal Information Retrieval in Question-Answering System [0.0]
Retrieval Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上に大きく貢献している。
しかしながら、RAGはいくつかの課題のためにベトナム語に適用されると、しばしば不足する。
本報告では,これらの課題に対処するための3つの主な修正点を紹介する。
論文 参考訳(メタデータ) (2024-09-05T02:34:05Z) - QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism [46.441032033076034]
メモリメカニズムは、長いコンテキストを管理するための柔軟なソリューションを提供する。
本稿では,二重構造メモリプールを組み込んだ新しい手法であるQRMeMを提案する。
マルチチョイス質問 (MCQ) とマルチドキュメント質問応答 (Multi-doc QA) のベンチマークによる評価では,既存手法と比較してQRMeMの性能が向上している。
論文 参考訳(メタデータ) (2024-06-19T02:46:18Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Reranking Passages with Coarse-to-Fine Neural Retriever Enhanced by List-Context Information [0.9463895540925061]
本稿では、他の候補からリストコンテキスト情報を取り入れることで、文節表現を増強するリストコンテキストアテンション機構を提案する。
The proposed coarse-to-fine neural retriever address the out-of-Memory limitation of the passage attention mechanism。
粗いランク付けと細かなランク付けを共同最適化プロセスに統合することで、2つのレイヤ間のフィードバックを同時に更新することが可能になる。
論文 参考訳(メタデータ) (2023-08-23T09:29:29Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Recurrent Coupled Topic Modeling over Sequential Documents [33.35324412209806]
現在のトピックは、結合重みが対応するすべてのトピックから進化し、マルチトピック・スレッドの進化を形成することを示す。
進化するトピック間のマルチカップリングを解消する,新しいデータ拡張手法を用いた新しいソリューションを提案する。
後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
論文 参考訳(メタデータ) (2021-06-23T08:58:13Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - When Deep Learning Meets Data Alignment: A Review on Deep Registration
Networks (DRNs) [4.616914111718527]
機械学習の最近の進歩は、コンピュータビジョンの分野における転換点となるかもしれない。
機械学習の最近の進歩は、コンピュータビジョンの分野における転換点となるかもしれない。
論文 参考訳(メタデータ) (2020-03-06T12:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。