論文の概要: Chunk Knowledge Generation Model for Enhanced Information Retrieval: A Multi-task Learning Approach
- arxiv url: http://arxiv.org/abs/2509.15658v1
- Date: Fri, 19 Sep 2025 06:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.031117
- Title: Chunk Knowledge Generation Model for Enhanced Information Retrieval: A Multi-task Learning Approach
- Title(参考訳): 強化情報検索のためのチャンク知識生成モデル:マルチタスク学習アプローチ
- Authors: Jisu Kim, Jinhee Park, Changhyun Jeon, Jungwoo Choi, Keonwoo Kim, Minji Hong, Sehyun Kim,
- Abstract要約: 本研究では,文書をチャンク単位に分割し,チャンク毎のテキストデータを生成し,検索効率と精度を同時に向上する手法を提案する。
提案した「チャンク知識生成モデル」では、T5ベースのマルチタスク学習構造を採用し、各文書チャンクからタイトルと候補質問を同時に生成する。
GPTに基づく305のクエリドキュメントペアの評価では、提案したモデルによる検索がTop@10で95.41%の精度を達成した。
- 参考スコア(独自算出の注目度): 13.945285357933487
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional query expansion techniques for addressing vocabulary mismatch problems in information retrieval are context-sensitive and may lead to performance degradation. As an alternative, document expansion research has gained attention, but existing methods such as Doc2Query have limitations including excessive preprocessing costs, increased index size, and reliability issues with generated content. To mitigate these problems and seek more structured and efficient alternatives, this study proposes a method that divides documents into chunk units and generates textual data for each chunk to simultaneously improve retrieval efficiency and accuracy. The proposed "Chunk Knowledge Generation Model" adopts a T5-based multi-task learning structure that simultaneously generates titles and candidate questions from each document chunk while extracting keywords from user queries. This approach maximizes computational efficiency by generating and extracting three types of semantic information in parallel through a single encoding and two decoding processes. The generated data is utilized as additional information in the retrieval system. GPT-based evaluation on 305 query-document pairs showed that retrieval using the proposed model achieved 95.41% accuracy at Top@10, demonstrating superior performance compared to document chunk-level retrieval. This study contributes by proposing an approach that simultaneously generates titles and candidate questions from document chunks for application in retrieval pipelines, and provides empirical evidence applicable to large-scale information retrieval systems by demonstrating improved retrieval accuracy through qualitative evaluation.
- Abstract(参考訳): 情報検索における語彙ミスマッチ問題に対処する従来のクエリ拡張手法は、文脈に敏感であり、性能劣化につながる可能性がある。
代替としてドキュメント拡張の研究が注目されているが、Doc2Queryのような既存のメソッドには、過剰な前処理コスト、インデックスサイズの増加、生成されたコンテンツの信頼性の問題など、制限がある。
そこで本研究では,文書をチャンク単位に分割し,チャンク毎のテキストデータを生成し,検索効率と精度を同時に向上する手法を提案する。
提案した"Chunk Knowledge Generation Model"では,ユーザクエリからキーワードを抽出しながら,各ドキュメントチャンクからタイトルと候補質問を同時に生成する,T5ベースのマルチタスク学習構造を採用している。
このアプローチは,1つのエンコーディングと2つの復号プロセスを通じて3種類の意味情報を並列に生成し,抽出することにより,計算効率を最大化する。
生成されたデータは、検索システムにおいて追加情報として利用される。
GPTに基づく305のクエリ文書対の評価では、提案したモデルを用いた検索がTop@10で95.41%の精度で達成され、文書チャンクレベルの検索よりも優れた性能を示した。
本研究は,検索パイプラインに適用するための文書チャンクからタイトルと候補質問を同時に生成する手法を提案し,質的評価による精度向上を実証し,大規模情報検索システムに適用可能な実証的証拠を提供する。
関連論文リスト
- Generative Retrieval for Book search [106.67655212825025]
書籍検索のための効率的な生成検索フレームワークを提案する。
データ拡張とアウトライン指向の書籍エンコーディングの2つの主要コンポーネントがある。
プロプライエタリなBaiduデータセットの実験では、GBSが強力なベースラインを上回ることが示されている。
論文 参考訳(メタデータ) (2025-01-19T12:57:13Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion [39.24969189479343]
本稿では,大規模言語モデル(LLM)を相互検証に用いるゼロショットクエリ拡張フレームワークを提案する。
提案手法は完全にゼロショットであり,その有効性を示すために3つの公開ベンチマークデータセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。