論文の概要: Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval
- arxiv url: http://arxiv.org/abs/2105.13066v1
- Date: Thu, 27 May 2021 11:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:11:36.778995
- Title: Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval
- Title(参考訳): 文書検索のためのグラフ駆動生成モデルと意味論と近傍情報の統合
- Authors: Zijing Ou, Qinliang Su, Jianxing Yu, Bang Liu, Jingwen Wang, Ruihui
Zhao, Changyou Chen and Yefeng Zheng
- Abstract要約: 本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
- 参考スコア(独自算出の注目度): 51.823187647843945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the need of fast retrieval speed and small memory footprint, document
hashing has been playing a crucial role in large-scale information retrieval.
To generate high-quality hashing code, both semantics and neighborhood
information are crucial. However, most existing methods leverage only one of
them or simply combine them via some intuitive criteria, lacking a theoretical
principle to guide the integration process. In this paper, we encode the
neighborhood information with a graph-induced Gaussian distribution, and
propose to integrate the two types of information with a graph-driven
generative model. To deal with the complicated correlations among documents, we
further propose a tree-structured approximation method for learning. Under the
approximation, we prove that the training objective can be decomposed into
terms involving only singleton or pairwise documents, enabling the model to be
trained as efficiently as uncorrelated ones. Extensive experimental results on
three benchmark datasets show that our method achieves superior performance
over state-of-the-art methods, demonstrating the effectiveness of the proposed
model for simultaneously preserving semantic and neighborhood information.\
- Abstract(参考訳): 高速な検索速度とメモリフットプリントの必要性から,ドキュメントハッシュは大規模情報検索において重要な役割を担っている。
高品質なハッシュコードを生成するには、セマンティクスと近所の情報の両方が不可欠である。
しかしながら、既存のほとんどのメソッドは、その1つしか利用していないか、直感的な基準で組み合わせているだけで、統合プロセスを導く理論的原理が欠如している。
本稿では,近傍情報をグラフ誘導ガウス分布にエンコードし,これら2種類の情報をグラフ駆動生成モデルと統合することを提案する。
さらに,文書間の複雑な相関に対処するために,木構造近似による学習法を提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズドキュメントのみを含む用語に分解可能であることを証明し、モデルが非相関文書と同じくらい効率的にトレーニングできることを示す。
3つのベンチマークデータセットの広範な実験結果から,本手法は最先端手法よりも優れた性能を達成でき,提案手法の有効性が実証された。
関連論文リスト
- Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - DNA: Denoised Neighborhood Aggregation for Fine-grained Category
Discovery [25.836440772705505]
本稿では,データのセマンティック構造を埋め込み空間にエンコードする自己教師型フレームワークを提案する。
我々は、クエリのk-nearest隣人を正のキーとして検索し、データ間のセマンティックな類似性を捉え、隣人からの情報を集約し、コンパクトなクラスタ表現を学ぶ。
我々の手法は、より正確な隣人(21.31%の精度改善)を検索し、最先端のモデルよりも大きなマージンで性能を向上することができる。
論文 参考訳(メタデータ) (2023-10-16T07:43:30Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Leveraging Key Information Modeling to Improve Less-Data Constrained
News Headline Generation via Duality Fine-Tuning [12.443476695459553]
本稿では,鍵情報予測と見出し生成タスクの確率的双対性制約を定式化することにより,新しい双対性微調整法を提案する。
提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築することができ、データ制約の少ない生成タスクに適している。
提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-10-10T07:59:36Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Unsupervised Hashing with Contrastive Information Bottleneck [39.607741586731336]
バイナリハッシュコードを学ぶためのフレームワークの適応を提案する。
具体的には、ハッシュの特定の要件を満たすために、まず目的関数を変更することを提案する。
次に、エンドツーエンドのトレーニングを容易にする確率的バイナリ表現層をモデルに導入する。
論文 参考訳(メタデータ) (2021-05-13T08:30:16Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。