Fugu-MT 論文翻訳(概要): Multiview Identifiers Enhanced Generative Retrieval

論文の概要: Multiview Identifiers Enhanced Generative Retrieval

arxiv url: http://arxiv.org/abs/2305.16675v1
Date: Fri, 26 May 2023 06:50:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 16:41:01.626133
Title: Multiview Identifiers Enhanced Generative Retrieval
Title（参考訳）: 多視点識別子による生成検索能力の向上
Authors: Yongqi Li, Nan Yang, Liang Wang, Furu Wei, Wenjie Li
Abstract要約: 生成検索は、検索対象の通路の識別子文字列を生成する。本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
参考スコア（独自算出の注目度）: 78.38443356800848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instead of simply matching a query to pre-existing passages, generative retrieval generates identifier strings of passages as the retrieval target. At a cost, the identifier must be distinctive enough to represent a passage. Current approaches use either a numeric ID or a text piece (such as a title or substrings) as the identifier. However, these identifiers cannot cover a passage's content well. As such, we are motivated to propose a new type of identifier, synthetic identifiers, that are generated based on the content of a passage and could integrate contextualized information that text pieces lack. Furthermore, we simultaneously consider multiview identifiers, including synthetic identifiers, titles, and substrings. These views of identifiers complement each other and facilitate the holistic ranking of passages from multiple perspectives. We conduct a series of experiments on three public datasets, and the results indicate that our proposed approach performs the best in generative retrieval, demonstrating its effectiveness and robustness.
Abstract（参考訳）: クエリを既存のパスにマッチさせる代わりに、生成検索は、検索ターゲットとしてパスの識別子文字列を生成する。あるコストで、識別子は通路を表すのに十分な識別性を持つ必要がある。現在のアプローチでは、識別子として数値IDまたはテキスト(タイトルやサブストリングなど)を使用する。しかし、これらの識別子はパッセージの内容をうまくカバーできない。そこで我々は,文片が欠落する文脈情報を統合するために,文の内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。さらに,合成識別子,タイトル,サブ文字列を含むマルチビュー識別子を同時に検討する。これらの識別子の見解は互いに補完し、複数の視点から通路の総合的なランキングを促進する。 3つの公開データセットについて一連の実験を行い,提案手法が生成的検索において最高の性能を示し,その有効性とロバスト性を示した。

関連論文リスト

CAT-ID$^2$: Category-Tree Integrated Document Identifier Learning for Generative Retrieval In E-commerce [35.700374519868724]
大規模言語モデル(LLM)の機能を統合する効果的なパラダイムとして,ジェネレーティブ検索(GR)が注目されている。 GRの主な課題は、強力な表現力を持つドキュメントID(DocIDS)を構築する方法である。本稿では,従来のカテゴリ情報をセマンティックIDに組み込んだ新しいID学習手法であるCategory-Tree Integrated Document IDentifier (CAT-ID$2$)を提案する。
論文参考訳（メタデータ） (2025-11-03T11:21:35Z)
MLLM-Driven Semantic Identifier Generation for Generative Cross-Modal Retrieval [7.524529523498721]
本稿では,MLLMに画像キャプチャーペアから構造化意味識別子を生成するための語彙効率のよい識別子生成フレームワークを提案する。これらの識別子は、オブジェクトやアクションのような概念レベルのトークンで構成され、モデルの生成空間と自然に整合している。また、Rationale-Guided Supervision Strategyを導入し、各識別子と並行して一文説明を作成するよう促す。
論文参考訳（メタデータ） (2025-09-22T05:23:06Z)
Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文参考訳（メタデータ） (2025-02-15T15:25:38Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文参考訳（メタデータ） (2024-03-31T13:29:43Z)
Summarization-Based Document IDs for Generative Retrieval with Language Models [65.11811787587403]
要約に基づく文書IDを導入し、各文書のIDは抽出的要約または抽象的キーフレーズから構成される。以上の結果から,ACIDの使用はトップ10とトップ20のリコールをそれぞれ15.6%,14.4%(相対)改善することがわかった。また, 抽出IDは, MSMARCOのスニペットではなく, ウィキペディア記事の抽象IDよりも優れていた。
論文参考訳（メタデータ） (2023-11-14T23:28:36Z)
Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文参考訳（メタデータ） (2023-10-11T18:56:15Z)
Character Queries: A Transformer-based Approach to On-Line Handwritten Character Segmentation [4.128716153761773]
本稿では,文字分割が代入問題となる場合に,事前に書き起こしが知られているシナリオに焦点を当てる。 k$-meansクラスタリングアルゴリズムにヒントを得て、クラスタ割り当ての観点から見た上で、Transformerベースのアーキテクチャを提示する。提案手法の質を評価するために,2つの有名なオンライン手書きデータセットに対して,文字分割基底真理を生成する。
論文参考訳（メタデータ） (2023-09-06T15:19:04Z)
Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文参考訳（メタデータ） (2020-08-22T09:50:43Z)
OCoR: An Overlapping-Aware Code Retriever [15.531119719750807]
自然言語による記述が与えられた場合、コード検索は一連のコードの中で最も関連性の高いコードを探すことを目的としている。既存の最先端アプローチでは、ニューラルネットワークをコード検索に適用している。我々はOCoRという新しいニューラルアーキテクチャを提案し、オーバーラップを捉えるために2つの特別に設計されたコンポーネントを紹介した。
論文参考訳（メタデータ） (2020-08-12T09:43:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。