論文の概要: Resources and Evaluations for Multi-Distribution Dense Information
Retrieval
- arxiv url: http://arxiv.org/abs/2306.12601v1
- Date: Wed, 21 Jun 2023 22:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:54:37.493206
- Title: Resources and Evaluations for Multi-Distribution Dense Information
Retrieval
- Title(参考訳): 多分布密度情報検索のための資源と評価
- Authors: Soumya Chatterjee, Omar Khattab, Simran Arora
- Abstract要約: マルチディストリビューション情報検索(IR)の新たな問題を紹介し,定義する。
我々は、我々の手法がデータセット全体で平均3.8以上、最大8.0ポイントの改善をRecall@100に導くことを示した。
- 参考スコア(独自算出の注目度): 12.10213157652093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and define the novel problem of multi-distribution information
retrieval (IR) where given a query, systems need to retrieve passages from
within multiple collections, each drawn from a different distribution. Some of
these collections and distributions might not be available at training time. To
evaluate methods for multi-distribution retrieval, we design three benchmarks
for this task from existing single-distribution datasets, namely, a dataset
based on question answering and two based on entity matching. We propose simple
methods for this task which allocate the fixed retrieval budget (top-k
passages) strategically across domains to prevent the known domains from
consuming most of the budget. We show that our methods lead to an average of
3.8+ and up to 8.0 points improvements in Recall@100 across the datasets and
that improvements are consistent when fine-tuning different base retrieval
models. Our benchmarks are made publicly available.
- Abstract(参考訳): 本稿では,クエリが与えられた場合,複数のコレクション内から,それぞれが異なる分布から引き出されたパスを検索する必要があるという,複数分散情報検索(IR)の新たな問題を紹介し,定義する。
これらのコレクションとディストリビューションのいくつかは、トレーニング時に利用できない可能性がある。
マルチ分散検索の手法を評価するために,既存の単一分散データセット,すなわち質問応答に基づくデータセットと,エンティティマッチングに基づく2つのベンチマークを設計した。
本課題では, 既知領域が予算の大部分を消費するのを防止するため, ドメイン間で戦略的に固定された回収予算(最上位経路)を割り当てる簡単な手法を提案する。
提案手法は,データセット全体で平均3.8ポイント,最大8.0ポイントのrecall@100改善を実現し,異なるベース検索モデルを微調整する際にも一貫性があることを実証する。
私たちのベンチマークは公開されています。
関連論文リスト
- Uni$^2$Det: Unified and Universal Framework for Prompt-Guided Multi-dataset 3D Detection [64.08296187555095]
Uni$2$Detは3D検出のための統一的で普遍的なマルチデータセットトレーニングのためのフレームワークである。
マルチデータセット3D検出のためのマルチステージプロンプトモジュールを提案する。
ゼロショットクロスデータセット転送の結果は,提案手法の一般化能力を検証する。
論文 参考訳(メタデータ) (2024-09-30T17:57:50Z) - On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - SepRep-Net: Multi-source Free Domain Adaptation via Model Separation And Reparameterization [75.74369886582394]
本稿では,SepRep-Netと呼ばれる新しいフレームワークを提案する。
SepRep-Netは複数の既存モデルを統合ネットワークに再組み立て、別々の経路(分離)を維持した。
SepRep-Net は、1) 効果、2) 目標領域での競争性能、2) 効率、低い計算コスト、3) 一般化可能性、既存のソリューションよりも多くのソース知識を維持する。
論文 参考訳(メタデータ) (2024-02-13T06:35:00Z) - End-to-End Autoregressive Retrieval via Bootstrapping for Smart Reply
Systems [7.2949782290577945]
ブートストラップによって得られた(メッセージ,返信セット)ペアのデータセットから,スマートリプライタスクをエンドツーエンドに学習する新たなアプローチを検討する。
実験結果から、この手法は3つのデータセットにわたる最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-10-29T09:56:17Z) - Multi-Domain Long-Tailed Learning by Augmenting Disentangled
Representations [80.76164484820818]
多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。
本稿では,この多領域長鎖学習問題について検討し,すべてのクラスとドメインにまたがってよく一般化されたモデルを作成することを目的とする。
TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合することでこれを達成している。
論文 参考訳(メタデータ) (2022-10-25T21:54:26Z) - Towards Realistic Low-resource Relation Extraction: A Benchmark with
Empirical Baseline Study [51.33182775762785]
本稿では,低リソース環境下での関係抽出システムを構築するための実証的研究について述べる。
低リソース環境での性能を評価するための3つのスキームについて検討する。 (i) ラベル付きラベル付きデータを用いた異なるタイプのプロンプトベース手法、 (ii) 長期分布問題に対処する多様なバランシング手法、 (iii) ラベル付きインドメインデータを生成するためのデータ拡張技術と自己学習。
論文 参考訳(メタデータ) (2022-10-19T15:46:37Z) - Multi-Source Domain Adaptation for Object Detection [52.87890831055648]
我々は、Divide-and-Merge Spindle Network (DMSN)と呼ばれる、より高速なR-CNNベースのフレームワークを提案する。
DMSNはドメイン非ネイティブを同時に強化し、識別力を維持することができる。
擬似目標部分集合の最適パラメータを近似する新しい擬似学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-30T03:17:20Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Learn by Guessing: Multi-Step Pseudo-Label Refinement for Person
Re-Identification [0.0]
有望なアプローチは、パイプラインの一部として教師なし学習を使用することに依存する。
本稿では,最善のクラスタを選択できるマルチステップ擬似ラベルリファインメント手法を提案する。
我々は、Market1501-DukeMTMCデータセットでUDA Re-IDの最先端を3.4%上回る。
論文 参考訳(メタデータ) (2021-01-04T20:00:33Z) - Learn to Expect the Unexpected: Probably Approximately Correct Domain
Generalization [38.345670899258515]
ドメインの一般化は、トレーニングデータとテストデータが異なるデータドメインから来るときの機械学習の問題である。
データ分布にメタ分布が存在する領域をまたいで一般化する単純な理論モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T17:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。