論文の概要: Multiview Identifiers Enhanced Generative Retrieval
- arxiv url: http://arxiv.org/abs/2305.16675v1
- Date: Fri, 26 May 2023 06:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:41:01.626133
- Title: Multiview Identifiers Enhanced Generative Retrieval
- Title(参考訳): 多視点識別子による生成検索能力の向上
- Authors: Yongqi Li, Nan Yang, Liang Wang, Furu Wei, Wenjie Li
- Abstract要約: 生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
- 参考スコア(独自算出の注目度): 78.38443356800848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instead of simply matching a query to pre-existing passages, generative
retrieval generates identifier strings of passages as the retrieval target. At
a cost, the identifier must be distinctive enough to represent a passage.
Current approaches use either a numeric ID or a text piece (such as a title or
substrings) as the identifier. However, these identifiers cannot cover a
passage's content well. As such, we are motivated to propose a new type of
identifier, synthetic identifiers, that are generated based on the content of a
passage and could integrate contextualized information that text pieces lack.
Furthermore, we simultaneously consider multiview identifiers, including
synthetic identifiers, titles, and substrings. These views of identifiers
complement each other and facilitate the holistic ranking of passages from
multiple perspectives. We conduct a series of experiments on three public
datasets, and the results indicate that our proposed approach performs the best
in generative retrieval, demonstrating its effectiveness and robustness.
- Abstract(参考訳): クエリを既存のパスにマッチさせる代わりに、生成検索は、検索ターゲットとしてパスの識別子文字列を生成する。
あるコストで、識別子は通路を表すのに十分な識別性を持つ必要がある。
現在のアプローチでは、識別子として数値IDまたはテキスト(タイトルやサブストリングなど)を使用する。
しかし、これらの識別子はパッセージの内容をうまくカバーできない。
そこで我々は,文片が欠落する文脈情報を統合するために,文の内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
さらに,合成識別子,タイトル,サブ文字列を含むマルチビュー識別子を同時に検討する。
これらの識別子の見解は互いに補完し、複数の視点から通路の総合的なランキングを促進する。
3つの公開データセットについて一連の実験を行い,提案手法が生成的検索において最高の性能を示し,その有効性とロバスト性を示した。
関連論文リスト
- Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。
以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。
また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z) - OCoR: An Overlapping-Aware Code Retriever [15.531119719750807]
自然言語による記述が与えられた場合、コード検索は一連のコードの中で最も関連性の高いコードを探すことを目的としている。
既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。
我々はOCoRという新しいニューラルアーキテクチャを提案し、オーバーラップを捉えるために2つの特別に設計されたコンポーネントを紹介した。
論文 参考訳(メタデータ) (2020-08-12T09:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。