論文の概要: InPars+: Supercharging Synthetic Data Generation for Information Retrieval Systems
- arxiv url: http://arxiv.org/abs/2508.13930v1
- Date: Tue, 19 Aug 2025 15:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.984725
- Title: InPars+: Supercharging Synthetic Data Generation for Information Retrieval Systems
- Title(参考訳): InPars+:情報検索システムのためのスーパーチャージ合成データ生成
- Authors: Matey Krastev, Miklos Hamar, Danilo Toapanta, Jesse Brouwers, Yibin Lei,
- Abstract要約: この研究は、ニューラル情報検索(NIR)のための合成クエリ生成パイプラインを再考し、拡張する。
まず、SciFactベンチマークで、オリジナルのInPars、InPars-V2、Promptaパイプラインのセガレータを評価する。
クエリジェネレータをCPO(Contrastive Preference Optimization)経由で微調整することで、生成されたクエリの信号品質を改善するとともに、静的プロンプトテンプレートを動的にChain-of-Thought(CoT)最適化プロンプトに置き換える。
- 参考スコア(独自算出の注目度): 3.09578981466695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work revisits and extends synthetic query generation pipelines for Neural Information Retrieval (NIR) by leveraging the InPars Toolkit, a reproducible, end-to-end framework for generating training data using large language models (LLMs). We first assess the reproducibility of the original InPars, InPars-V2, and Promptagator pipelines on the SciFact benchmark and validate their effectiveness using open-source reranker and generator models. Building on this foundation, we introduce two key extensions to the pipeline: (1) fine-tuning a query generator LLM via Contrastive Preference Optimization (CPO) to improve the signal quality in generated queries, and (2) replacing static prompt templates with dynamic, Chain-of-Thought (CoT) optimized prompts using the DSPy framework. Our results show that both extensions reduce the need for aggressive filtering while improving retrieval performance. All code, models, and synthetic datasets are publicly released to support further research at: \href{https://github.com/danilotpnta/IR2-project}{this https URL}.
- Abstract(参考訳): この研究は、大規模な言語モデル(LLM)を使用してトレーニングデータを生成する再現可能なエンドツーエンドフレームワークであるInPars Toolkitを活用することで、ニューラルネットワーク検索(NIR)のための合成クエリ生成パイプラインを再考し、拡張する。
まず、SciFactベンチマークを用いて、元のInPars、InPars-V2、Promptagatorパイプラインの再現性を評価し、オープンソースリランカとジェネレータモデルを用いて、それらの有効性を検証する。
この基盤を基盤として,(1)コントラスト優先最適化(Contrastive Preference Optimization, CPO)によるクエリジェネレータの微調整,(2)静的プロンプトテンプレートを動的に置き換える,(CoT) は DSPy フレームワークを用いてプロンプトを最適化する。
以上の結果から,どちらの拡張もアグレッシブなフィルタリングの必要性を低減し,検索性能の向上を図っている。
すべてのコード、モデル、合成データセットが公開され、次の研究をサポートする。
関連論文リスト
- When Retriever Meets Generator: A Joint Model for Code Comment Generation [3.6781644685120924]
RAGSumは、単一のCodeT5バックボーンを使用して、ヒューズ検索と生成の上に構築されている。
対照的な事前学習フェーズは、最寄りの探索のためのコード埋め込みを形作る。
最終出力を研磨するために、軽量な自己精製ループが配置される。
論文 参考訳(メタデータ) (2025-07-16T18:12:27Z) - Ext2Gen: Alignment through Unified Extraction and Generation for Robust Retrieval-Augmented Generation [18.570899885235104]
提案するExt2Genは,回答を生成する前にクエリ関連文を抽出することでRAGを強化する新しい抽出列生成モデルである。
実験により、Ext2Genはクエリ関連文を高い精度とリコールで効果的に識別し、信頼性の高い回答をもたらすことが示された。
論文 参考訳(メタデータ) (2025-02-28T06:46:53Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Can Query Expansion Improve Generalization of Strong Cross-Encoder Rankers? [72.42500059688396]
本稿では,拡張されたクエリのランク付け結果を融合により高速化し,エンジニアリングの迅速化と集約を行うことにより,強力なニューラルネットワークローカの一般化を向上できることを示す。
BEIR と TREC Deep Learning の実験では,MonoT5 と RankT5 の nDCG@10 スコアがこれらのステップに従って改善された。
論文 参考訳(メタデータ) (2023-11-15T18:11:41Z) - InPars-v2: Large Language Models as Efficient Dataset Generators for
Information Retrieval [4.888022358881737]
InPars-v2は、オープンソースのLLMと強力なリランカを使用して、トレーニング用に合成クエリ-ドキュメントペアを選択するデータセットジェネレータである。
InPars-v2データに微調整されたmonoT5リランカを伴い、単純なBM25検索パイプラインがBEIRベンチマークで新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-01-04T20:58:43Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。