論文の概要: The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training
- arxiv url: http://arxiv.org/abs/2602.09448v1
- Date: Tue, 10 Feb 2026 06:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.40881
- Title: The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training
- Title(参考訳): 多くのクエリの知恵:Dense Retriever Trainingのための複雑さと多様性の原則
- Authors: Xincan Feng, Noriki Nishida, Yusuke Sakai, Yuji Matsumoto,
- Abstract要約: この矛盾を特定し、多様性の影響を定量化するためにQ-Dメトリクスを設計する。
マルチホップデータの深い分析は、多様性の利点がクエリの複雑さと強く関連していることを示している。
我々はこれを複雑性・多様性原理(CDP: Complexity-Diversity Principle: Complexity-Diversity Principle)として定式化し、クエリの複雑さは最適な多様性を決定する。
- 参考スコア(独自算出の注目度): 7.985241329048744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work reports conflicting results on query diversity in synthetic data generation for dense retrieval. We identify this conflict and design Q-D metrics to quantify diversity's impact, making the problem measurable. Through experiments on 4 benchmark types (31 datasets), we find query diversity especially benefits multi-hop retrieval. Deep analysis on multi-hop data reveals that diversity benefit correlates strongly with query complexity ($r$$\geq$0.95, $p$$<$0.05 in 12/14 conditions), measured by content words (CW). We formalize this as the Complexity-Diversity Principle (CDP): query complexity determines optimal diversity. CDP provides actionable thresholds (CW$>$10: use diversity; CW$<$7: avoid it). Guided by CDP, we propose zero-shot multi-query synthesis for multi-hop tasks, achieving state-of-the-art performance.
- Abstract(参考訳): 先行研究は、高密度検索のための合成データ生成におけるクエリの多様性に関する相反する結果を報告した。
この矛盾を識別し、多様性の影響を定量化するためにQ-Dメトリクスを設計し、問題を測定可能にする。
4つのベンチマークタイプ(31のデータセット)の実験により、クエリの多様性は特にマルチホップ検索に有効であることが判明した。
マルチホップデータの深い分析によると、多様性の利点はクエリの複雑さ(r$\geq$0.95, $p$$<0.05 in 12/14 conditions)と強く相関している。
我々はこれを複雑性・多様性原理(CDP: Complexity-Diversity Principle: Complexity-Diversity Principle)として定式化し、クエリの複雑さは最適な多様性を決定する。
CDPは実行可能なしきい値(CW$>$10:使用多様性;CW$<$7:回避)を提供する。
CDPによって導かれるマルチホップタスクのためのゼロショットマルチクエリ合成を提案し、最先端性能を実現する。
関連論文リスト
- Beyond More Context: Retrieval Diversity Boosts Multi-Turn Intent Understanding [0.0]
本稿では,意図のカバレッジと言語的多様性のバランスをとるために,文脈の見地から選択する多様性に配慮した検索フレームワークを提案する。
MultiWOZ 2.4 と SGD では、同じトークン予算下でのジョイントゴール精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-10-20T16:54:35Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - SPARKE: Scalable Prompt-Aware Diversity and Novelty Guidance in Diffusion Models via RKE Score [22.364171814102487]
拡散モデルは高忠実度画像合成と即時誘導生成モデルにおいて顕著な成功を収めている。
そこで本稿では,SPARKE(Scalble Prompt-Aware R'eny Kernel Entropy Diversity Guidance)法を提案する。
本研究では,複数のテキスト・画像拡散モデル上でSPARKE法を数値的に検証し,提案手法が有意な計算コストを伴わずに生成したデータの迅速な多様性を向上させることを示す。
論文 参考訳(メタデータ) (2025-06-11T20:53:45Z) - Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts [67.67746334493302]
大規模言語モデル(LLM)は、多くのタスクにまたがる顕著な機能を示してきたが、複雑なタスクを扱うために外部のコンテキストに依存していることが多い。
我々は、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するトリエンコーダシーケンシャルレトリバーを提案する。
提案手法は,サンプル間の依存関係を明示的にモデル化することの重要性を強調し,ベースラインを一貫して大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-04-15T17:35:56Z) - MultiConIR: Towards multi-condition Information Retrieval [38.864056667809095]
MultiConIRは、複雑なマルチ条件クエリシナリオ下での検索および再ランクモデルの評価のために設計されたベンチマークである。
ほとんどのレトリバーとリランカは、クエリの複雑さが増大するにつれて、パフォーマンスが大幅に低下する。
この研究は、リランカの性能劣化の原因を解明し、クエリ内の条件位置が類似性評価にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。
GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。
検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-03-10T16:42:48Z) - Exploring and Controlling Diversity in LLM-Agent Conversation [13.69653913986299]
本稿では,単一パラメータで多様性を制御できる新しい手法であるAdaptive Prompt Pruning (APP)を提案する。
APPは広範な実験を通じて多様性を効果的に調整し、既存の多様性制御手法と互換性がある。
論文 参考訳(メタデータ) (2024-12-30T17:25:58Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。