論文の概要: Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2406.13372v2
- Date: Thu, 10 Oct 2024 08:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:37.774325
- Title: Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation
- Title(参考訳): Thread: Retrieval Augmented Generationによる質問応答のためのロジックベースのデータオーガナイゼーションパラダイム
- Authors: Kaikai An, Fangkai Yang, Liqun Li, Junting Lu, Sitao Cheng, Shuzheng Si, Lu Wang, Pu Zhao, Lele Cao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, Baobao Chang,
- Abstract要約: ハウツー質問は意思決定プロセスに不可欠なものであり、動的でステップバイステップの回答を必要とする。
我々は,現在のシステムがハウツー質問をより効果的に扱えるようにするための新しいデータ組織パラダイムThreadを提案する。
- 参考スコア(独自算出の注目度): 49.36436704082436
- License:
- Abstract: Recent advances in retrieval-augmented generation have significantly improved the performance of question-answering systems, particularly on factoid '5Ws' questions. However, these systems still face substantial challenges when addressing '1H' questions, specifically how-to questions, which are integral to decision-making processes and require dynamic, step-by-step answers. The key limitation lies in the prevalent data organization paradigm, chunk, which divides documents into fixed-size segments, and disrupts the logical coherence and connections within the context. To overcome this, in this paper, we propose Thread, a novel data organization paradigm aimed at enabling current systems to handle how-to questions more effectively. Specifically, we introduce a new knowledge granularity, termed 'logic unit', where documents are transformed into more structured and loosely interconnected logic units with large language models. Extensive experiments conducted across both open-domain and industrial settings demonstrate that Thread outperforms existing paradigms significantly, improving the success rate of handling how-to questions by 21% to 33%. Moreover, Thread exhibits high adaptability in processing various document formats, drastically reducing the candidate quantity in the knowledge base and minimizing the required information to one-fourth compared with chunk, optimizing both efficiency and effectiveness.
- Abstract(参考訳): 近年の検索強化世代は,特にファクトイドな「5Ws」質問において,質問応答システムの性能を著しく向上させてきた。
しかし、これらのシステムは、意思決定プロセスに不可欠な、動的でステップバイステップの回答を必要とする「1H」質問、特にハウツー質問に対処する場合、依然として重大な課題に直面している。
重要な制限は、ドキュメントを固定サイズのセグメントに分割し、コンテキスト内の論理的一貫性と接続を乱す、一般的なデータ組織パラダイムであるチャンクにある。
そこで本稿では,現在のシステムでハウツー問題をより効果的に処理することを目的とした,新しいデータ組織パラダイムであるThreadを提案する。
具体的には、「論理単位」と呼ばれる新しい知識の粒度を導入し、文書はより構造化され、大きな言語モデルと疎結合な論理単位に変換される。
オープンドメインとインダストリアルの両方で実施された大規模な実験は、Threadが既存のパラダイムを著しく上回り、ハウツー質問の処理の成功率を21%から33%向上させることを示した。
さらに、Threadは、様々な文書フォーマットの処理において高い適応性を示し、知識ベースにおける候補量を劇的に削減し、必要な情報をチャンクに比べて1/4まで最小化し、効率と有効性を最適化する。
関連論文リスト
- QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism [46.441032033076034]
メモリメカニズムは、長いコンテキストを管理するための柔軟なソリューションを提供する。
本稿では,二重構造メモリプールを組み込んだ新しい手法であるQRMeMを提案する。
マルチチョイス質問 (MCQ) とマルチドキュメント質問応答 (Multi-doc QA) のベンチマークによる評価では,既存手法と比較してQRMeMの性能が向上している。
論文 参考訳(メタデータ) (2024-06-19T02:46:18Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Reranking Passages with Coarse-to-Fine Neural Retriever Enhanced by List-Context Information [0.9463895540925061]
本稿では、他の候補からリストコンテキスト情報を取り入れることで、文節表現を増強するリストコンテキストアテンション機構を提案する。
The proposed coarse-to-fine neural retriever address the out-of-Memory limitation of the passage attention mechanism。
粗いランク付けと細かなランク付けを共同最適化プロセスに統合することで、2つのレイヤ間のフィードバックを同時に更新することが可能になる。
論文 参考訳(メタデータ) (2023-08-23T09:29:29Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Towards Personalized and Human-in-the-Loop Document Summarization [0.0]
この論文は、新しい要約技術を用いて情報の過負荷を軽減するための3つの主要な課題に焦点を当てている。
i) 文書要約における機能工学、(ii) 従来の静的および非フレキシブルな要約、(iii) 従来の総合的な要約アプローチ、(iv) 参照要約の必要性をカバーしている。
論文 参考訳(メタデータ) (2021-08-21T05:34:46Z) - Recurrent Coupled Topic Modeling over Sequential Documents [33.35324412209806]
現在のトピックは、結合重みが対応するすべてのトピックから進化し、マルチトピック・スレッドの進化を形成することを示す。
進化するトピック間のマルチカップリングを解消する,新しいデータ拡張手法を用いた新しいソリューションを提案する。
後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
論文 参考訳(メタデータ) (2021-06-23T08:58:13Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - When Deep Learning Meets Data Alignment: A Review on Deep Registration
Networks (DRNs) [4.616914111718527]
機械学習の最近の進歩は、コンピュータビジョンの分野における転換点となるかもしれない。
機械学習の最近の進歩は、コンピュータビジョンの分野における転換点となるかもしれない。
論文 参考訳(メタデータ) (2020-03-06T12:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。