論文の概要: Efficiency-Effectiveness Tradeoff of Probabilistic Structured Queries for Cross-Language Information Retrieval
- arxiv url: http://arxiv.org/abs/2404.18797v1
- Date: Mon, 29 Apr 2024 15:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 01:28:16.456805
- Title: Efficiency-Effectiveness Tradeoff of Probabilistic Structured Queries for Cross-Language Information Retrieval
- Title(参考訳): クロスランゲージ情報検索のための確率的構造化クエリの効率効果トレードオフ
- Authors: Eugene Yang, Suraj Nair, Dawn Lawrie, James Mayfield, Douglas W. Oard, Kevin Duh,
- Abstract要約: 本稿では,PSQの有効性と効率のトレードオフが複数基準プルーニングの利点をもたらすことを示すため,最新のCLIRテストコレクションについて実験を行った。
当社のPython PSQ実装はGitHubから入手可能です。
- 参考スコア(独自算出の注目度): 30.070780800451953
- License:
- Abstract: Probabilistic Structured Queries (PSQ) is a cross-language information retrieval (CLIR) method that uses translation probabilities statistically derived from aligned corpora. PSQ is a strong baseline for efficient CLIR using sparse indexing. It is, therefore, useful as the first stage in a cascaded neural CLIR system whose second stage is more effective but too inefficient to be used on its own to search a large text collection. In this reproducibility study, we revisit PSQ by introducing an efficient Python implementation. Unconstrained use of all translation probabilities that can be estimated from aligned parallel text would in the limit assign a weight to every vocabulary term, precluding use of an inverted index to serve queries efficiently. Thus, PSQ's effectiveness and efficiency both depend on how translation probabilities are pruned. This paper presents experiments over a range of modern CLIR test collections to demonstrate that achieving Pareto optimal PSQ effectiveness-efficiency tradeoffs benefits from multi-criteria pruning, which has not been fully explored in prior work. Our Python PSQ implementation is available on GitHub(https://github.com/hltcoe/PSQ) and unpruned translation tables are available on Huggingface Models(https://huggingface.co/hltcoe/psq_translation_tables).
- Abstract(参考訳): 確率的構造化クエリ(Probabilistic Structured Queries、PSQ)は、コーパスから統計的に派生した翻訳確率を利用する言語間情報検索(CLIR)手法である。
PSQはスパースインデックスを用いた効率的なCLIRのための強力なベースラインである。
したがって、第2段階の方が効率的であるが、大規模なテキストコレクションを検索するために単独で使用するには非効率であるカスケードニューラルネットワークCLIRシステムにおいて、第1段階として有用である。
本稿では,効率的なPython実装を導入することでPSQを再考する。
一致したパラレルテキストから推定できる全ての翻訳確率の制約のない使用は、すべての語彙項に重みを割り当て、効率よくクエリを提供するために逆インデックスを使わないようにする。
したがって、PSQの有効性と効率性は、翻訳確率がいかに切断されるかによって異なる。
本稿では,PSQの最適効率トレードオフを実現するために,従来の研究で十分に検討されていない複数基準プルーニングの利点を実証するために,最新のCLIRテストコレクションについて実験を行った。
私たちのPython PSQ実装はGitHub(https://github.com/hltcoe/PSQ)で、未実行の翻訳テーブルはHuggingface Models(https://huggingface.co/hltcoe/psq_translation_tables)で利用可能です。
関連論文リスト
- pEBR: A Probabilistic Approach to Embedding Based Retrieval [4.8338111302871525]
埋め込み検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
現在の産業実践では、検索システムは典型的には、異なるクエリに対して一定数のアイテムを検索する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - SATfeatPy -- A Python-based Feature Extraction System for Satisfiability [2.236663830879273]
本稿では,CNF形式のSAT問題に対する特徴抽出技術を提供するSATfeatPyを紹介する。
ライブラリは、詳細な機能説明とともに、最新の、使いやすいPythonパッケージで提供される。
本稿では,SAT/UNSATの精度と問題分類の精度を,ライブラリを用いて生成した5つの特徴セットを用いて示す。
論文 参考訳(メタデータ) (2022-04-29T14:10:01Z) - Pyramid-BERT: Reducing Complexity via Successive Core-set based Token
Selection [23.39962989492527]
BERTのようなトランスフォーマーベースの言語モデルは、様々なNLPタスクで最先端を達成しているが、計算的に禁止されている。
本稿では,従来の使用法を,理論的な結果によって正当化されたemコアセットベースのトークン選択法で置き換えるピラミッド-BERTを提案する。
コアセットベースのトークン選択技術により、高価な事前トレーニングを回避でき、空間効率の良い微調整が可能となり、長いシーケンス長を扱うのに適している。
論文 参考訳(メタデータ) (2022-03-27T19:52:01Z) - Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval [45.88734029123836]
本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
論文 参考訳(メタデータ) (2020-10-26T15:27:51Z) - Bilingual Text Extraction as Reading Comprehension [23.475200800530306]
本稿では,トークンレベルのスパン予測として,ノイズの多い並列コーパスからバイリンガルテキストを自動的に抽出する手法を提案する。
与えられたソース文(スパン)の翻訳である対象文書のスパンを抽出するために、QANetまたは多言語BERTを使用する。
論文 参考訳(メタデータ) (2020-04-29T23:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。