論文の概要: Simplified Longitudinal Retrieval Experiments: A Case Study on Query Expansion and Document Boosting
- arxiv url: http://arxiv.org/abs/2509.17440v1
- Date: Mon, 22 Sep 2025 07:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:37:10.036413
- Title: Simplified Longitudinal Retrieval Experiments: A Case Study on Query Expansion and Document Boosting
- Title(参考訳): 簡易な経時的検索実験:クエリ拡張と文書強化を事例として
- Authors: Jüri Keller, Maik Fröbe, Gijs Hendriksen, Daria Alexander, Martin Potthast, Philipp Schaer,
- Abstract要約: 縦断的検索実験のための ir_datasets のカスタム拡張を提案する。
この拡張により、長手検索実験の重要な側面を宣言的に記述することができる。
新しいir_datasets拡張に対して、LongEval 2024への申請を再実装しました。
- 参考スコア(独自算出の注目度): 23.423029611362484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The longitudinal evaluation of retrieval systems aims to capture how information needs and documents evolve over time. However, classical Cranfield-style retrieval evaluations only consist of a static set of queries and documents and thereby miss time as an evaluation dimension. Therefore, longitudinal evaluations need to complement retrieval toolkits with custom logic. This custom logic increases the complexity of research software, which might reduce the reproducibility and extensibility of experiments. Based on our submissions to the 2024 edition of LongEval, we propose a custom extension of ir_datasets for longitudinal retrieval experiments. This extension allows for declaratively, instead of imperatively, describing important aspects of longitudinal retrieval experiments, e.g., which queries, documents, and/or relevance feedback are available at which point in time. We reimplement our submissions to LongEval 2024 against our new ir_datasets extension, and find that the declarative access can reduce the complexity of the code.
- Abstract(参考訳): 検索システムの経時的評価は,必要な情報や文書が時間とともにどのように進化していくかを把握することを目的としている。
しかし、古典的クランフィールドスタイルの検索評価は、静的なクエリとドキュメントのセットのみで構成されており、その結果、評価次元としての時間を逃すことになる。
したがって、縦断的な評価は、検索ツールキットとカスタムロジックを補完する必要がある。
このカスタムロジックにより、研究ソフトウェアの複雑さが増大し、実験の再現性と拡張性が低下する可能性がある。
LongEvalの2024年版への投稿に基づき、縦断的検索実験のためのir_datasetsのカスタム拡張を提案する。
この拡張により、命令的にではなく宣言的に、例えば、どのクエリ、ドキュメント、および/または関連フィードバックがどの時点で利用可能かといった、縦方向の検索実験の重要な側面を記述することができる。
我々は、新しいir_datasets拡張に対してLongEval 2024へのサブミットを再実装し、宣言的なアクセスがコードの複雑さを減らせることを発見した。
関連論文リスト
- Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe [42.35197658021889]
一致するクエリとドキュメントのペアを類似したベクトル表現に埋め込んだデュアルエンコーダ(DE)モデルは、情報検索に広く利用されている。
本稿では,階層的検索(HR)の文脈において,文書集合が階層構造を持ち,クエリに適合する文書がすべてその祖先であるような制約について検討する。
近い文書の性能を犠牲にすることなく、長距離検索を大幅に改善するプレトレインファインチューンレシピを提案する。
論文 参考訳(メタデータ) (2025-09-19T20:35:58Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [130.19204432111277]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Controlled Retrieval-augmented Context Evaluation for Long-form RAG [58.14561461943611]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得したコンテキストを組み込むことで、大規模言語モデルを強化する。
我々は、レポート生成のような長期RAGタスクにおいて、包括的な検索強化コンテキストを提供することが重要であると論じる。
本稿では,検索拡張コンテキストを直接評価するフレームワークであるCRUXを紹介する。
論文 参考訳(メタデータ) (2025-06-24T23:17:48Z) - ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - On the Reproducibility of Learned Sparse Retrieval Adaptations for Long Documents [2.186901738997927]
長い文書にLearned Sparse Retrieval(LSR)を適用するメカニズムを再現し検討する。
実験の結果,文書検索性能は第1セグメントが支配的であり,各セグメントの重要性が確認された。
提案手法であるExactSDMとSoftSDMを文書の長さによって再評価した。
論文 参考訳(メタデータ) (2025-03-31T08:19:31Z) - Reproducible Hybrid Time-Travel Retrieval in Evolving Corpora [1.9202615342033464]
本稿では,高速検索のためのLuceneと,バージョン付きおよびタイムスタンプ付きインデックスを維持する列ストア型検索システムを組み合わせたハイブリッド検索システムを提案する。
論文 参考訳(メタデータ) (2024-11-06T16:57:55Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。