論文の概要: Multiview Identifiers Enhanced Generative Retrieval
- arxiv url: http://arxiv.org/abs/2305.16675v1
- Date: Fri, 26 May 2023 06:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:41:01.626133
- Title: Multiview Identifiers Enhanced Generative Retrieval
- Title(参考訳): 多視点識別子による生成検索能力の向上
- Authors: Yongqi Li, Nan Yang, Liang Wang, Furu Wei, Wenjie Li
- Abstract要約: 生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
- 参考スコア(独自算出の注目度): 78.38443356800848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instead of simply matching a query to pre-existing passages, generative
retrieval generates identifier strings of passages as the retrieval target. At
a cost, the identifier must be distinctive enough to represent a passage.
Current approaches use either a numeric ID or a text piece (such as a title or
substrings) as the identifier. However, these identifiers cannot cover a
passage's content well. As such, we are motivated to propose a new type of
identifier, synthetic identifiers, that are generated based on the content of a
passage and could integrate contextualized information that text pieces lack.
Furthermore, we simultaneously consider multiview identifiers, including
synthetic identifiers, titles, and substrings. These views of identifiers
complement each other and facilitate the holistic ranking of passages from
multiple perspectives. We conduct a series of experiments on three public
datasets, and the results indicate that our proposed approach performs the best
in generative retrieval, demonstrating its effectiveness and robustness.
- Abstract(参考訳): クエリを既存のパスにマッチさせる代わりに、生成検索は、検索ターゲットとしてパスの識別子文字列を生成する。
あるコストで、識別子は通路を表すのに十分な識別性を持つ必要がある。
現在のアプローチでは、識別子として数値IDまたはテキスト(タイトルやサブストリングなど)を使用する。
しかし、これらの識別子はパッセージの内容をうまくカバーできない。
そこで我々は,文片が欠落する文脈情報を統合するために,文の内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
さらに,合成識別子,タイトル,サブ文字列を含むマルチビュー識別子を同時に検討する。
これらの識別子の見解は互いに補完し、複数の視点から通路の総合的なランキングを促進する。
3つの公開データセットについて一連の実験を行い,提案手法が生成的検索において最高の性能を示し,その有効性とロバスト性を示した。
関連論文リスト
- Language Models As Semantic Indexers [80.76133595275728]
生成言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMINDEXERを紹介する。
本稿では, 逐次離散表現を生成可能なセマンティックインデクサを導入することで, シーケンシャルなシーケンシャルIDの課題に対処する。
学習したセマンティックインデクサは、レコメンデーションや検索など、さまざまな下流タスクを容易にすることができる。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Character Queries: A Transformer-based Approach to On-Line Handwritten
Character Segmentation [4.128716153761773]
本稿では,文字分割が代入問題となる場合に,事前に書き起こしが知られているシナリオに焦点を当てる。
k$-meansクラスタリングアルゴリズムにヒントを得て、クラスタ割り当ての観点から見た上で、Transformerベースのアーキテクチャを提示する。
提案手法の質を評価するために,2つの有名なオンライン手書きデータセットに対して,文字分割基底真理を生成する。
論文 参考訳(メタデータ) (2023-09-06T15:19:04Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - Identity Documents Authentication based on Forgery Detection of
Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。
認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文 参考訳(メタデータ) (2022-06-22T11:37:10Z) - Fairness for Text Classification Tasks with Identity Information Data
Augmentation Methods [2.5199066832791535]
メソッドは、与えられたトレーニングとテストセットインスタンスのカウンターファクトを生成することに基づいています。
2段階の強化プロセスが多様なアイデンティティペアと強化されたトレーニングセットにつながることを実証的に示す。
論文 参考訳(メタデータ) (2022-02-04T07:08:30Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z) - OCoR: An Overlapping-Aware Code Retriever [15.531119719750807]
自然言語による記述が与えられた場合、コード検索は一連のコードの中で最も関連性の高いコードを探すことを目的としている。
既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。
我々はOCoRという新しいニューラルアーキテクチャを提案し、オーバーラップを捉えるために2つの特別に設計されたコンポーネントを紹介した。
論文 参考訳(メタデータ) (2020-08-12T09:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。