論文の概要: DocQAC: Adaptive Trie-Guided Decoding for Effective In-Document Query Auto-Completion
- arxiv url: http://arxiv.org/abs/2604.18257v1
- Date: Mon, 20 Apr 2026 13:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.904265
- Title: DocQAC: Adaptive Trie-Guided Decoding for Effective In-Document Query Auto-Completion
- Title(参考訳): DocQAC: 効果的なインドキュメントクエリ自動補完のための適応型トライガイドデコーディング
- Authors: Rahul Mehta, Kavin R, Indrajit Pal, Tushar Abhishek, Pawan Goyal, Manish Gupta,
- Abstract要約: DocQACは、ユーザーがより高速で正確なクエリを作成できるようにすることで、長いドキュメント内の検索生産性を向上させることを目指している。
ユーザクエリプレフィックスを用いて,言語モデルをソフトに操り,高品質な補完を実現するための適応型トリエン誘導型デコーディングフレームワークを提案する。
提案手法は, ORCAS から派生した新しい DocQAC ベンチマークで評価する。
- 参考スコア(独自算出の注目度): 8.602282135498108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query auto-completion (QAC) has been widely studied in the context of web search, yet remains underexplored for in-document search, which we term DocQAC. DocQAC aims to enhance search productivity within long documents by helping users craft faster, more precise queries, even for complex or hard-to-spell terms. While global historical queries are available to both WebQAC and DocQAC, DocQAC uniquely accesses document-specific context, including the current document's content and its specific history of user query interactions. To address this setting, we propose a novel adaptive trie-guided decoding framework that uses user query prefixes to softly steer language models toward high-quality completions. Our approach introduces an adaptive penalty mechanism with tunable hyperparameters, enabling a principled trade-off between model confidence and trie-based guidance. To efficiently incorporate document context, we explore retrieval-augmented generation (RAG) and lightweight contextual document signals such as titles, keyphrases, and summaries. When applied to encoder-decoder models like T5 and BART, our trie-guided framework outperforms strong baselines and even surpasses much larger instruction-tuned models such as LLaMA-3 and Phi-3 on seen queries across both seen and unseen documents. This demonstrates its practicality for real-world DocQAC deployments, where efficiency and scalability are critical. We evaluate our method on a newly introduced DocQAC benchmark derived from ORCAS, enriched with query-document pairs. We make both the DocQAC dataset (https://bit.ly/3IGEkbH) and code (https://github.com/rahcode7/DocQAC) publicly available.
- Abstract(参考訳): クエリオートコンプリート(QAC)は、Web検索の文脈で広く研究されているが、ドキュメント内検索では未検討であり、DocQACと呼ぶ。
DocQACは、長いドキュメントの中の検索の生産性を高めることを目的としている。
グローバルな履歴クエリはWebQACとDocQACの両方で利用できるが、DocQACはドキュメント固有のコンテキストに一意にアクセスする。
そこで本研究では,ユーザクエリプレフィックスを用いて,言語モデルをソフトに操り,高品質な補完を実現するための適応型トリエン誘導型デコーディングフレームワークを提案する。
提案手法では,調整可能なハイパーパラメータを用いた適応型ペナルティ機構を導入し,モデル信頼度とトリエベースガイダンスのトレードオフを可能にする。
文書コンテキストを効率的に組み込むために,検索拡張生成(RAG)とタイトル,キーフレーズ,要約などの軽量なコンテキスト文書信号について検討する。
T5 や BART のようなエンコーダデコーダモデルに適用した場合、我々のトリガードフレームワークは強力なベースラインを上回り、LLaMA-3 や Phi-3 のような命令チューニングモデルよりもはるかに大きくなり、目に見えないドキュメントと見えないドキュメントの両方で見られるクエリに勝る。
これは、効率性とスケーラビリティが重要である現実世界のDocQACデプロイメントの実用性を示している。
提案手法は, ORCAS から派生した新しい DocQAC ベンチマークで評価する。
DocQACデータセット(https://bit.ly/3IGEkbH)とコード(https://github.com/rahcode7/DocQAC)の両方を公開しています。
関連論文リスト
- Align then Train: Efficient Retrieval Adapter Learning [16.855103318831073]
本稿では,自己教師付きアライメントと教師付きアライメントの2つの段階において,検索アダプタを訓練するラベル効率のフレームワークを提案する。
MAIRベンチマークの実験は、6つのドメインで126の検索タスクにまたがっており、ERAが低ラベル設定での検索を改善することを示している。
論文 参考訳(メタデータ) (2026-04-03T19:04:42Z) - BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents [11.158307125677375]
Retrieval-Augmented Generation (RAG)は、外部の複雑なドキュメントから非常に関連性の高い情報をクエリする。
本稿では,階層構造を持つ文書を対象とした新しいRAG手法であるBookRAGを紹介する。
BookRAGは最先端のパフォーマンスを実現し、検索リコールとQA精度の両方において、ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-03T03:40:49Z) - Improving Scientific Document Retrieval with Concept Coverage-based Query Set Generation [49.29180578078616]
概念カバレッジに基づくクエリセット生成(CCQGen)フレームワークは、ドキュメントの概念を包括的に網羅したクエリセットを生成するように設計されている。
従来のクエリでは十分にカバーされていない概念を識別し,その後のクエリ生成の条件として活用する。
このアプローチは、それぞれの新しいクエリをガイドして、以前のクエリを補完し、ドキュメントの徹底的な理解を支援する。
論文 参考訳(メタデータ) (2025-02-16T15:59:50Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Pairwise Multi-Class Document Classification for Semantic Relations
between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。
文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。
我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文 参考訳(メタデータ) (2020-03-22T12:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。