論文の概要: QueryGym: A Toolkit for Reproducible LLM-Based Query Reformulation
- arxiv url: http://arxiv.org/abs/2511.15996v1
- Date: Thu, 20 Nov 2025 02:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.442022
- Title: QueryGym: A Toolkit for Reproducible LLM-Based Query Reformulation
- Title(参考訳): QueryGym: 再現可能なLLMベースのクエリ再構成用ツールキット
- Authors: Amin Bigdeli, Radin Hamidi Rad, Mert Incesu, Negar Arabzadeh, Charles L. A. Clarke, Ebrahim Bagheri,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づくクエリ再構成をサポートするPythonツールキットであるQueryGymを紹介する。
このツールキットは、llmベースの再構成手法を実装し、実行し、比較するための統一されたフレームワークを提供する。
- 参考スコア(独自算出の注目度): 21.804685308876326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present QueryGym, a lightweight, extensible Python toolkit that supports large language model (LLM)-based query reformulation. This is an important tool development since recent work on llm-based query reformulation has shown notable increase in retrieval effectiveness. However, while different authors have sporadically shared the implementation of their methods, there is no unified toolkit that provides a consistent implementation of such methods, which hinders fair comparison, rapid experimentation, consistent benchmarking and reliable deployment. QueryGym addresses this gap by providing a unified framework for implementing, executing, and comparing llm-based reformulation methods. The toolkit offers: (1) a Python API for applying diverse LLM-based methods, (2) a retrieval-agnostic interface supporting integration with backends such as Pyserini and PyTerrier, (3) a centralized prompt management system with versioning and metadata tracking, (4) built-in support for benchmarks like BEIR and MS MARCO, and (5) a completely open-source extensible implementation available to all researchers. QueryGym is publicly available at https://github.com/radinhamidi/QueryGym.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)に基づくクエリ再構成をサポートする軽量で拡張可能なPythonツールキットであるQueryGymを紹介する。
近年のllmベースのクエリ再構成の研究は,検索効率が顕著に向上していることから,これは重要なツール開発である。
しかし、様々な著者がそれぞれの手法の実装を散発的に共有しているが、このような手法を一貫した実装を提供する統一されたツールキットは存在せず、公正な比較、迅速な実験、一貫したベンチマーク、信頼性のあるデプロイを妨げている。
QueryGymは、llmベースの再構成メソッドの実装、実行、比較のための統一されたフレームワークを提供することで、このギャップに対処する。
2) Pyserini や PyTerrier といったバックエンドとの統合をサポートする検索非依存のインターフェース,(3) バージョニングとメタデータトラッキングを備えた集中型プロンプト管理システム,(4) BEIR や MS MARCO などのベンチマークを組み込みでサポートする,(5) 完全にオープンソースで拡張可能な実装である。
QueryGymはhttps://github.com/radinhamidi/QueryGym.comで公開されている。
関連論文リスト
- ToolDreamer: Instilling LLM Reasoning Into Tool Retrievers [33.08308979741825]
既存の検索モデルでは、ユーザクエリとツール記述(TD)の類似性に基づいてツールをランク付けする。
ユーザ要求がTDの言語に不整合している場合が多いため、このことがサブ最適検索に繋がる。
仮説的(合成的)なTDに基づいてツールをフェッチするための,検索モデルの条件付けを行うフレームワークであるToolDreamerを提案する。
論文 参考訳(メタデータ) (2025-10-22T17:26:05Z) - A Framework for Testing and Adapting REST APIs as LLM Tools [11.757827071584737]
大きな言語モデル(LLM)は、外部ツールで複雑なタスクを実行する自律エージェントを構築するために、ますます使われています。
現在のベンチマークではこれらの課題を見落としており、エージェント駆動自動化のためのAPI準備性の評価のギャップが残っている。
LLMエージェント用のPythonツールとしてラップされたエンタープライズAPIを体系的に評価するテストフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T02:52:08Z) - LLM4Ranking: An Easy-to-use Framework of Utilizing Large Language Models for Document Reranking [15.060195612587805]
我々は,オープンソースやクローズドソースのAPIベースのLCMを用いて,ユーザが異なるランキング手法を適用可能な統一フレームワークである textbfLLM4Ranking を導入する。
我々のフレームワークは、LLMで文書を再ランク付けするためのシンプルでインターフェイスを提供し、また、このタスクの使い易い評価と微調整スクリプトを提供する。
論文 参考訳(メタデータ) (2025-04-10T04:08:38Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research [70.6584488911715]
検索増強世代(RAG)は、かなりの研究関心を集めている。
既存のRAGツールキットは、しばしば重くて柔軟であり、研究者のカスタマイズのニーズを満たすことができない。
我々のツールキットは16の高度なRAGメソッドを実装し、38のベンチマークデータセットを収集し、整理した。
論文 参考訳(メタデータ) (2024-05-22T12:12:40Z) - AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。
課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。
一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文 参考訳(メタデータ) (2024-04-09T16:01:24Z) - Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである
LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。
本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - PyRelationAL: a python library for active learning research and development [1.0061110876649197]
アクティブラーニング(英: Active Learning, AL)は、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。
本稿では,AL研究のためのオープンソースライブラリであるPyRelationALを紹介する。
プールベースのアクティブラーニング戦略を構成するための2段階の設計方法論をベースとしたモジュラーツールキットについて述べる。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。