論文の概要: Atomized Search Length: Beyond User Models
- arxiv url: http://arxiv.org/abs/2201.01745v1
- Date: Wed, 5 Jan 2022 18:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 14:53:07.994153
- Title: Atomized Search Length: Beyond User Models
- Title(参考訳): Atomized Search長: ユーザモデルを超えて
- Authors: John Alex, Keith Hall, Donald Metzler
- Abstract要約: 現在のIRメトリクスは、ユーザーエクスペリエンスの最適化をモデルにしており、IR空間の一部が狭すぎる。
IRシステムが弱い場合、これらのメトリクスは、改善が必要なより深いドキュメントをアンサンプまたは完全にフィルタリングする。
2020年のDeep Learningのトラックでは、ニューラルネットワークが最上位のドキュメントに対してほぼ最適であったことが示されています。
- 参考スコア(独自算出の注目度): 12.42868925284099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that current IR metrics, modeled on optimizing user experience,
measure too narrow a portion of the IR space. If IR systems are weak, these
metrics undersample or completely filter out the deeper documents that need
improvement. If IR systems are relatively strong, these metrics undersample
deeper relevant documents that could underpin even stronger IR systems, ones
that could present content from tens or hundreds of relevant documents in a
user-digestible hierarchy or text summary. We reanalyze over 70 TREC tracks
from the past 28 years, showing that roughly half undersample top ranked
documents and nearly all undersample tail documents. We show that in the 2020
Deep Learning tracks, neural systems were actually near-optimal at top-ranked
documents, compared to only modest gains over BM25 on tail documents. Our
analysis is based on a simple new systems-oriented metric, 'atomized search
length', which is capable of accurately and evenly measuring all relevant
documents at any depth.
- Abstract(参考訳): ユーザエクスペリエンスの最適化をモデルとした現在のIRメトリクスは、IR空間のごく一部を計測しすぎている、と我々は主張する。
IRシステムが弱い場合、これらのメトリクスは、改善が必要なより深いドキュメントをアンサンプまたは完全にフィルタリングする。
irシステムが比較的強力な場合、これらのメトリクスはより深い関連文書のサンプルとなり、より強力なirシステムを支える可能性がある。
我々は過去28年間に70以上のtrecトラックを再分析し、上位の文書の約半分と下位の文書のほぼすべてを示した。
2020年のDeep Learningのトラックでは、ニューラルネットワークが最上位のドキュメントでほぼ最適であったのに対し、尾のドキュメントではBM25よりもわずかに向上していた。
我々の分析は,任意の深さですべての関連文書を正確に均一に測定できる,単純なシステム指向の基準である「原子探索長」に基づいている。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Processing the structure of documents: Logical Layout Analysis of
historical newspapers in French [0.951828574518325]
RIPPERとGradient Boostingという2つの機械学習モデルの評価と比較を行った。
私たちのルールベースのシステムは、ほぼすべての評価において、他の2つのモデルよりも優れています。
論文 参考訳(メタデータ) (2022-02-16T15:05:13Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Long Document Summarization in a Low Resource Setting using Pretrained
Language Models [28.042826329840437]
我々は、平均ソース文書長4268ワードの長い法的ブリーフを要約する挑戦的な低リソース設定を研究します。
我々は17.9 ROUGE-Lを達成し、それが長い文と闘うように、現代の事前訓練抽象要約BARTを使用します。
圧縮された文書をBARTに送付すると,6.0ROUGE-Lの改善が観察される。
論文 参考訳(メタデータ) (2021-03-01T04:43:55Z) - Neural Methods for Effective, Efficient, and Exposure-Aware Information
Retrieval [7.3371176873092585]
情報検索の具体的なニーズと課題に動機づけられた新しいニューラルアーキテクチャと手法を紹介します。
多くの実生活のIRタスクにおいて、検索には数十億のドキュメントを含む商用Web検索エンジンのドキュメントインデックスなど、非常に大規模なコレクションが含まれる。
論文 参考訳(メタデータ) (2020-12-21T21:20:16Z) - Learning from similarity and information extraction from structured
documents [0.0]
目的は、巨大な実世界の文書データセット上で、単語ごとの分類のマイクロF1を改善することである。
結果は、提案されたアーキテクチャ部品がすべて、以前の結果を上回るために必要であることを確認した。
最高のモデルは、F1スコアの8.25利得によって、前の最先端結果を改善する。
論文 参考訳(メタデータ) (2020-10-17T21:34:52Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。