Fugu-MT 論文翻訳(概要): Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation

論文の概要: Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation

arxiv url: http://arxiv.org/abs/2406.13372v2
Date: Thu, 10 Oct 2024 08:04:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 09:21:37.25082
Title: Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation
Title（参考訳）: Thread: Retrieval Augmented Generationによる質問応答のためのロジックベースのデータオーガナイゼーションパラダイム
Authors: Kaikai An, Fangkai Yang, Liqun Li, Junting Lu, Sitao Cheng, Shuzheng Si, Lu Wang, Pu Zhao, Lele Cao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, Baobao Chang,
Abstract要約: ハウツー質問は意思決定プロセスに不可欠なものであり、動的でステップバイステップの回答を必要とする。我々は,現在のシステムがハウツー質問をより効果的に扱えるようにするための新しいデータ組織パラダイムThreadを提案する。
参考スコア（独自算出の注目度）: 49.36436704082436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in retrieval-augmented generation have significantly improved the performance of question-answering systems, particularly on factoid '5Ws' questions. However, these systems still face substantial challenges when addressing '1H' questions, specifically how-to questions, which are integral to decision-making processes and require dynamic, step-by-step answers. The key limitation lies in the prevalent data organization paradigm, chunk, which divides documents into fixed-size segments, and disrupts the logical coherence and connections within the context. To overcome this, in this paper, we propose Thread, a novel data organization paradigm aimed at enabling current systems to handle how-to questions more effectively. Specifically, we introduce a new knowledge granularity, termed 'logic unit', where documents are transformed into more structured and loosely interconnected logic units with large language models. Extensive experiments conducted across both open-domain and industrial settings demonstrate that Thread outperforms existing paradigms significantly, improving the success rate of handling how-to questions by 21% to 33%. Moreover, Thread exhibits high adaptability in processing various document formats, drastically reducing the candidate quantity in the knowledge base and minimizing the required information to one-fourth compared with chunk, optimizing both efficiency and effectiveness.
Abstract（参考訳）: 近年の検索強化世代は,特にファクトイドな「5Ws」質問において,質問応答システムの性能を著しく向上させてきた。しかし、これらのシステムは、意思決定プロセスに不可欠な、動的でステップバイステップの回答を必要とする「1H」質問、特にハウツー質問に対処する場合、依然として重大な課題に直面している。重要な制限は、ドキュメントを固定サイズのセグメントに分割し、コンテキスト内の論理的一貫性と接続を乱す、一般的なデータ組織パラダイムであるチャンクにある。そこで本稿では,現在のシステムでハウツー問題をより効果的に処理することを目的とした,新しいデータ組織パラダイムであるThreadを提案する。具体的には、「論理単位」と呼ばれる新しい知識の粒度を導入し、文書はより構造化され、大きな言語モデルと疎結合な論理単位に変換される。オープンドメインとインダストリアルの両方で実施された大規模な実験は、Threadが既存のパラダイムを著しく上回り、ハウツー質問の処理の成功率を21%から33%向上させることを示した。さらに、Threadは、様々な文書フォーマットの処理において高い適応性を示し、知識ベースにおける候補量を劇的に削減し、必要な情報をチャンクに比べて1/4まで最小化し、効率と有効性を最適化する。

関連論文リスト

Efficient Conversational Search via Topical Locality in Dense Retrieval [9.38751103209178]
我々は、応答時間を改善するために、会話クエリに固有のトピックの局所性を利用する。クエリの埋め込み類似性を活用することで,検索空間を意味的に関連するドキュメントクラスタに動的に制限する。その結果,提案システムは複雑なマルチターンクエリを高い精度と効率で効果的に処理できることが示唆された。
論文参考訳（メタデータ） (2025-04-30T10:56:34Z)
Vietnamese Legal Information Retrieval in Question-Answering System [0.0]
Retrieval Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上に大きく貢献している。しかしながら、RAGはいくつかの課題のためにベトナム語に適用されると、しばしば不足する。本報告では,これらの課題に対処するための3つの主な修正点を紹介する。
論文参考訳（メタデータ） (2024-09-05T02:34:05Z)
QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。 IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文参考訳（メタデータ） (2024-08-20T02:44:45Z)
QRMeM: Unleash the Length Limitation through Question then Reflection Memory Mechanism [46.441032033076034]
メモリメカニズムは、長いコンテキストを管理するための柔軟なソリューションを提供する。本稿では,二重構造メモリプールを組み込んだ新しい手法であるQRMeMを提案する。マルチチョイス質問 (MCQ) とマルチドキュメント質問応答 (Multi-doc QA) のベンチマークによる評価では,既存手法と比較してQRMeMの性能が向上している。
論文参考訳（メタデータ） (2024-06-19T02:46:18Z)
Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。 FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-14T18:41:54Z)
Reranking Passages with Coarse-to-Fine Neural Retriever Enhanced by List-Context Information [0.9463895540925061]
本稿では、他の候補からリストコンテキスト情報を取り入れることで、文節表現を増強するリストコンテキストアテンション機構を提案する。 The proposed coarse-to-fine neural retriever address the out-of-Memory limitation of the passage attention mechanism。粗いランク付けと細かなランク付けを共同最適化プロセスに統合することで、2つのレイヤ間のフィードバックを同時に更新することが可能になる。
論文参考訳（メタデータ） (2023-08-23T09:29:29Z)
Information Association for Language Model Updating by Mitigating LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文参考訳（メタデータ） (2023-05-29T19:48:37Z)
Peek Across: Improving Multi-Document Modeling via Cross-Document Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文参考訳（メタデータ） (2023-05-24T17:48:40Z)
How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文参考訳（メタデータ） (2023-05-19T17:33:38Z)
Recurrent Coupled Topic Modeling over Sequential Documents [33.35324412209806]
現在のトピックは、結合重みが対応するすべてのトピックから進化し、マルチトピック・スレッドの進化を形成することを示す。進化するトピック間のマルチカップリングを解消する,新しいデータ拡張手法を用いた新しいソリューションを提案する。後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
論文参考訳（メタデータ） (2021-06-23T08:58:13Z)
ClarQ: A large-scale and diverse dataset for Clarification Question Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文参考訳（メタデータ） (2020-06-10T17:56:50Z)
When Deep Learning Meets Data Alignment: A Review on Deep Registration Networks (DRNs) [4.616914111718527]
機械学習の最近の進歩は、コンピュータビジョンの分野における転換点となるかもしれない。機械学習の最近の進歩は、コンピュータビジョンの分野における転換点となるかもしれない。
論文参考訳（メタデータ） (2020-03-06T12:56:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。