論文の概要: Grounding Language Model with Chunking-Free In-Context Retrieval
- arxiv url: http://arxiv.org/abs/2402.09760v1
- Date: Thu, 15 Feb 2024 07:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:44:20.123608
- Title: Grounding Language Model with Chunking-Free In-Context Retrieval
- Title(参考訳): チャンキング自由文脈検索を用いた接地言語モデル
- Authors: Hongjin Qian, Zheng Liu, Kelong Mao, Yujia Zhou, Zhicheng Dou
- Abstract要約: 本稿では,新しいチャンキングフリー・インコンテキスト(CFIC)検索手法を提案する。
- 参考スコア(独自算出の注目度): 27.316315081648572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel Chunking-Free In-Context (CFIC) retrieval
approach, specifically tailored for Retrieval-Augmented Generation (RAG)
systems. Traditional RAG systems often struggle with grounding responses using
precise evidence text due to the challenges of processing lengthy documents and
filtering out irrelevant content. Commonly employed solutions, such as document
chunking and adapting language models to handle longer contexts, have their
limitations. These methods either disrupt the semantic coherence of the text or
fail to effectively address the issues of noise and inaccuracy in evidence
retrieval.
CFIC addresses these challenges by circumventing the conventional chunking
process. It utilizes the encoded hidden states of documents for in-context
retrieval, employing auto-aggressive decoding to accurately identify the
specific evidence text required for user queries, eliminating the need for
chunking. CFIC is further enhanced by incorporating two decoding strategies,
namely Constrained Sentence Prefix Decoding and Skip Decoding. These strategies
not only improve the efficiency of the retrieval process but also ensure that
the fidelity of the generated grounding text evidence is maintained. Our
evaluations of CFIC on a range of open QA datasets demonstrate its superiority
in retrieving relevant and accurate evidence, offering a significant
improvement over traditional methods. By doing away with the need for document
chunking, CFIC presents a more streamlined, effective, and efficient retrieval
solution, making it a valuable advancement in the field of RAG systems.
- Abstract(参考訳): 本稿では,新しいチャンキングフリー・インコンテキスト(CFIC)検索手法を提案する。
従来のragシステムは、長い文書の処理や無関係なコンテンツをフィルタリングすることの難しさから、正確な証拠テキストによる応答の接地に苦労することが多い。
ドキュメントチャンキングや長いコンテキストを扱うために言語モデルを適用するといった一般的なソリューションには、制限がある。
これらの手法は、テキストのセマンティックコヒーレンスを妨害するか、証拠検索におけるノイズや不正確な問題に効果的に対処できないかのどちらかである。
CFICは従来のチャンキングプロセスを回避することでこれらの課題に対処する。
文書のエンコードされた隠された状態をインコンテキスト検索に利用し、自動攻撃的復号を用いてユーザクエリに必要な特定のエビデンステキストを正確に識別し、チャンキングの必要をなくす。
CFICはさらに2つのデコード戦略、すなわちConstrained Sentence Prefix DecodingとSkip Decodingを導入することで強化されている。
これらの戦略は、検索プロセスの効率を向上するだけでなく、生成した基底テキスト証拠の忠実さを確実に維持する。
オープンなQAデータセットに対するCFICの評価は、関連性および正確な証拠の検索において優位性を示し、従来の手法よりも大幅に改善された。
文書チャンキングを不要にすることで、CFICはより合理化され、効果的で効率的な検索ソリューションを提供し、RAGシステム分野における貴重な進歩となる。
関連論文リスト
- Corrective Retrieval Augmented Generation [39.371798735872865]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Error-Robust Retrieval for Chinese Spelling Check [43.56073620728942]
Chinese Spelling Check (CSC)は、中国のコンテキストにおけるエラートークンの検出と修正を目的としている。
これまでの方法では、既存のデータセットを完全に活用できない場合がある。
そこで我々は,中国語スペルチェックのための誤り情報付きプラグ・アンド・プレイ検索手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T01:55:34Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。