論文の概要: Multiview Identifiers Enhanced Generative Retrieval
- arxiv url: http://arxiv.org/abs/2305.16675v1
- Date: Fri, 26 May 2023 06:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:41:01.626133
- Title: Multiview Identifiers Enhanced Generative Retrieval
- Title(参考訳): 多視点識別子による生成検索能力の向上
- Authors: Yongqi Li, Nan Yang, Liang Wang, Furu Wei, Wenjie Li
- Abstract要約: 生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
- 参考スコア(独自算出の注目度): 78.38443356800848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instead of simply matching a query to pre-existing passages, generative
retrieval generates identifier strings of passages as the retrieval target. At
a cost, the identifier must be distinctive enough to represent a passage.
Current approaches use either a numeric ID or a text piece (such as a title or
substrings) as the identifier. However, these identifiers cannot cover a
passage's content well. As such, we are motivated to propose a new type of
identifier, synthetic identifiers, that are generated based on the content of a
passage and could integrate contextualized information that text pieces lack.
Furthermore, we simultaneously consider multiview identifiers, including
synthetic identifiers, titles, and substrings. These views of identifiers
complement each other and facilitate the holistic ranking of passages from
multiple perspectives. We conduct a series of experiments on three public
datasets, and the results indicate that our proposed approach performs the best
in generative retrieval, demonstrating its effectiveness and robustness.
- Abstract(参考訳): クエリを既存のパスにマッチさせる代わりに、生成検索は、検索ターゲットとしてパスの識別子文字列を生成する。
あるコストで、識別子は通路を表すのに十分な識別性を持つ必要がある。
現在のアプローチでは、識別子として数値IDまたはテキスト(タイトルやサブストリングなど)を使用する。
しかし、これらの識別子はパッセージの内容をうまくカバーできない。
そこで我々は,文片が欠落する文脈情報を統合するために,文の内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
さらに,合成識別子,タイトル,サブ文字列を含むマルチビュー識別子を同時に検討する。
これらの識別子の見解は互いに補完し、複数の視点から通路の総合的なランキングを促進する。
3つの公開データセットについて一連の実験を行い,提案手法が生成的検索において最高の性能を示し,その有効性とロバスト性を示した。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Character Queries: A Transformer-based Approach to On-Line Handwritten
Character Segmentation [4.128716153761773]
本稿では,文字分割が代入問題となる場合に,事前に書き起こしが知られているシナリオに焦点を当てる。
k$-meansクラスタリングアルゴリズムにヒントを得て、クラスタ割り当ての観点から見た上で、Transformerベースのアーキテクチャを提示する。
提案手法の質を評価するために,2つの有名なオンライン手書きデータセットに対して,文字分割基底真理を生成する。
論文 参考訳(メタデータ) (2023-09-06T15:19:04Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z) - OCoR: An Overlapping-Aware Code Retriever [15.531119719750807]
自然言語による記述が与えられた場合、コード検索は一連のコードの中で最も関連性の高いコードを探すことを目的としている。
既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。
我々はOCoRという新しいニューラルアーキテクチャを提案し、オーバーラップを捉えるために2つの特別に設計されたコンポーネントを紹介した。
論文 参考訳(メタデータ) (2020-08-12T09:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。