論文の概要: Exposing Query Identification for Search Transparency
- arxiv url: http://arxiv.org/abs/2110.07701v1
- Date: Thu, 14 Oct 2021 20:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-10-18 13:20:36.692432
- Title: Exposing Query Identification for Search Transparency
- Title(参考訳): 検索透明性のためのクエリの抽出
- Authors: Ruohan Li, Jianxiang Li, Bhaskar Mitra, Fernando Diaz, Asia J. Biega
- Abstract要約: 本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
- 参考スコア(独自算出の注目度): 69.06545074617685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search systems control the exposure of ranked content to searchers. In many
cases, creators value not only the exposure of their content but, moreover, an
understanding of the specific searches where the content is surfaced. The
problem of identifying which queries expose a given piece of content in the
ranking results is an important and relatively under-explored search
transparency challenge. Exposing queries are useful for quantifying various
issues of search bias, privacy, data protection, security, and search engine
optimization.
Exact identification of exposing queries in a given system is computationally
expensive, especially in dynamic contexts such as web search. In quest of a
more lightweight solution, we explore the feasibility of approximate exposing
query identification (EQI) as a retrieval task by reversing the role of queries
and documents in two classes of search systems: dense dual-encoder models and
traditional BM25 models. We then propose how this approach can be improved
through metric learning over the retrieval embedding space. We further derive
an evaluation metric to measure the quality of a ranking of exposing queries,
as well as conducting an empirical analysis focusing on various practical
aspects of approximate EQI.
- Abstract(参考訳): 検索システムは、ランク付けされたコンテンツの検索者への露出を制御する。
多くの場合、クリエーターはコンテンツの露出だけでなく、コンテンツが表面化されている特定の検索の理解も重視している。
どのクェリがランク付け結果に特定のコンテントを露出させるかを特定する問題は、重要で比較的未検討の検索透明性の課題である。
クエリの公開は,検索バイアス,プライバシ,データ保護,セキュリティ,検索エンジン最適化といったさまざまな問題の定量化に有用だ。
特定のシステムにおけるクエリの正確な識別は、特にWeb検索のような動的コンテキストにおいて、計算コストが高い。
より軽量な解を求めるため,2種類の検索システムにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとして近似型クエリ識別(EQI)の実現可能性を検討する。
次に,検索埋め込み空間上でのメトリック学習によって,このアプローチがいかに改善されるかを提案する。
さらに、クエリのランク付けの質を測定するための評価基準を導出するとともに、近似EQIの様々な実践的側面に着目した実証分析を行う。
関連論文リスト
- HotelQuEST: Balancing Quality and Efficiency in Agentic Search [6.1626572270420334]
エージェント検索は,大規模言語モデル(LLM)を利用した適応検索システムにおいて,有望なパラダイムとして登場した。
ホテルクエスト(HotelQuEST)は、214のホテル検索クエリからなるベンチマークで、単純な事実要求から複雑なクエリまで様々である。
LLMをベースとしたエージェントは,従来のレトリバーよりも精度が高いが,冗長なツールコールや準最適ルーティングによるコストが著しく高いことがわかった。
論文 参考訳(メタデータ) (2026-02-27T11:50:57Z) - Revisiting Text Ranking in Deep Research [24.324221566628125]
Black-box Web Search APIは、検索コンポーネントの体系的な分析を妨げる。
我々は、深い研究環境において、IRテキストランキング手法における重要な発見とベストプラクティスの選択を再現する。
論文 参考訳(メタデータ) (2026-02-25T00:18:07Z) - Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。
エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。
エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2026-01-27T00:46:08Z) - Over-Searching in Search-Augmented Large Language Models [22.821710825732563]
検索強化された大言語モデル(LLM)は、外部検索を統合することで知識集約的なタスクに優れる。
過剰探索は、無関係な文脈を取り入れることで、計算の非効率性と幻覚をもたらす。
以上の結果から, (i) 解答可能な問合せに対する解答精度は向上するが, 解答不可能な問合せに対する棄却を損なうこと, (ii) 過剰探索が複雑な推論モデルや深層研究システムにおいてより顕著であること, (iii) 否定的証拠の存在が棄却を改善していることが示唆された。
論文 参考訳(メタデータ) (2026-01-09T03:24:46Z) - SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。
既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。
この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文 参考訳(メタデータ) (2026-01-08T12:39:05Z) - DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search [61.77858432092777]
DeepMMSearch-R1は,オンデマンドでマルチターンWeb検索が可能な,最初のマルチモーダルな大規模言語モデルである。
DeepMMSearch-R1は、画像検索をより効果的にするために、入力画像の関連する作物に基づいてWeb検索を開始することができる。
我々は、アプローチの優位性を実証するために、知識集約型ベンチマークを幅広く実施する。
論文 参考訳(メタデータ) (2025-10-14T17:59:58Z) - How good are LLMs at Retrieving Documents in a Specific Domain? [3.282961543904818]
本稿では,ドメイン固有の評価データセットをキュレートして検索システムの性能を解析する自動手法を提案する。
本研究では,Large Language Models (LLMs) を用いたRAG(Retrieval of Augmented Generation)を組み込んで,自然言語クエリを用いた環境領域データの高品質な検索を行う。
論文 参考訳(メタデータ) (2025-08-25T19:47:21Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - ScholarSearch: Benchmarking Scholar Searching Ability of LLMs [5.562566989891248]
本研究では,学術研究におけるLarge Language Models (LLM) の複雑な情報検索能力を評価するために設計された最初のデータセットであるScholarSearchを提案する。
学術的実践性(Academic Practicality) – 質問内容は実際の学習環境と研究環境を密接に反映する。
我々は、複雑な学術情報検索タスクにおけるLCMの性能向上をより正確に測定し、促進することを期待する。
論文 参考訳(メタデータ) (2025-06-11T02:05:23Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - Open-Ended and Knowledge-Intensive Video Question Answering [20.256081440725353]
知識集約型ビデオ質問応答 (KI-VideoQA) を多モード検索拡張世代のレンズを用いて検討する。
本稿では,最先端の検索モデルと視覚言語モデルを用いて,様々な検索拡張手法について検討する。
我々は、KnowIT VQAデータセットにおいて、複数の選択質問に対する精度を17.5%向上させる。
論文 参考訳(メタデータ) (2025-02-17T12:40:35Z) - Holistically Guided Monte Carlo Tree Search for Intricate Information Seeking [118.3983437282541]
我々は,モンテカルロ木探索 (HG-MCTS) を用いた新たな情報探索パラダイムを採用したLLMベースの検索アシスタントを提案する。
本稿では,知識メモリを用いたプログレッシブ情報収集プロセスとしてタスクを再構築し,適応型チェックリストとMCTSのマルチパースペクティブ報酬モデルとを結合する。
マルチパースペクティブ報酬モデリングは、探索と検索の両方の報奨と、完了と残るサブゴールを追跡する進捗フィードバックを提供する。
論文 参考訳(メタデータ) (2025-02-07T08:36:39Z) - PseudoSeer: a Search Engine for Pseudocode [18.726136894285403]
疑似コードを含む学術論文の効率的な検索と検索を容易にするために、新しい擬似コード検索エンジンが設計された。
スニペットを活用することで、ユーザはタイトル、抽象情報、著者情報、コードスニペットなど、紙のさまざまな面を検索できる。
重み付けされたBM25ベースのランキングアルゴリズムを検索エンジンで使用し、検索結果の優先順位付け時に考慮される要因について述べる。
論文 参考訳(メタデータ) (2024-11-19T16:58:03Z) - QUIDS: Query Intent Generation via Dual Space Modeling [12.572815037915348]
本稿では,検索意図の理解を説明するために,返却文書における意味的関連性および無関係情報を利用する二重空間モデルを提案する。
提案手法は高品質な問合せインテント記述を生成し,既存の手法と最先端の問合せベース要約手法を比較検討する。
論文 参考訳(メタデータ) (2024-10-16T09:28:58Z) - Improving Retrieval in Sponsored Search by Leveraging Query Context Signals [6.152499434499752]
本稿では,クエリをリッチなコンテキスト信号で拡張することで,クエリ理解を強化する手法を提案する。
我々は、Web検索のタイトルとスニペットを使って、現実世界の情報にクエリを接地し、GPT-4を使ってクエリの書き直しと説明を生成する。
我々の文脈認識アプローチは文脈自由モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-19T14:28:53Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Beyond Relevance: Evaluate and Improve Retrievers on Perspective Awareness [56.42192735214931]
検索者は、ドキュメントとクエリ間のセマンティックな関連性に頼るだけでなく、ユーザクエリの背後にある微妙な意図や視点を認識することも期待されている。
本研究では,検索者がクエリの異なる視点を認識し,応答できるかどうかを検討する。
我々は,現在の検索者はクエリにおいて微妙に異なる視点に対する認識が限られており,特定の視点に偏りがあることを示す。
論文 参考訳(メタデータ) (2024-05-04T17:10:00Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - Guided Transformer: Leveraging Multiple External Sources for
Representation Learning in Conversational Search [36.64582291809485]
あいまいなクエリやフェースドクエリに対する質問を明確にすることは,様々な情報検索システムにおいて有用な手法として認識されている。
本稿では,トランスフォーマーネットワークが学習した表現を,外部情報ソースからの新たなアテンション機構を用いて強化する。
実験では,検索の明確化のための公開データセットを用いて,競合するベースラインと比較して大きな改善点を示した。
論文 参考訳(メタデータ) (2020-06-13T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。