論文の概要: A Survey on Deep Text Hashing: Efficient Semantic Text Retrieval with Binary Representation
- arxiv url: http://arxiv.org/abs/2510.27232v1
- Date: Fri, 31 Oct 2025 06:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.010104
- Title: A Survey on Deep Text Hashing: Efficient Semantic Text Retrieval with Binary Representation
- Title(参考訳): ディープテキストハッシュに関する調査:二項表現を用いた効率的なセマンティックテキスト検索
- Authors: Liyang He, Zhenya Huang, Cheng Yang, Rui Li, Zheng Zhang, Kai Zhang, Zhi Li, Qi Liu, Enhong Chen,
- Abstract要約: テキストハッシュはオリジナルのテキストをコンパクトなバイナリハッシュコードに投影する。
ディープテキストハッシュは、従来のデータに依存しないハッシュ技術よりも大きなアドバンテージを示している。
本調査では, コアコンポーネントに基づいて分類することで, 現在の深層テキストハッシュ法について検討する。
- 参考スコア(独自算出の注目度): 69.50397417361351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid growth of textual content on the Internet, efficient large-scale semantic text retrieval has garnered increasing attention from both academia and industry. Text hashing, which projects original texts into compact binary hash codes, is a crucial method for this task. By using binary codes, the semantic similarity computation for text pairs is significantly accelerated via fast Hamming distance calculations, and storage costs are greatly reduced. With the advancement of deep learning, deep text hashing has demonstrated significant advantages over traditional, data-independent hashing techniques. By leveraging deep neural networks, these methods can learn compact and semantically rich binary representations directly from data, overcoming the performance limitations of earlier approaches. This survey investigates current deep text hashing methods by categorizing them based on their core components: semantic extraction, hash code quality preservation, and other key technologies. We then present a detailed evaluation schema with results on several popular datasets, followed by a discussion of practical applications and open-source tools for implementation. Finally, we conclude by discussing key challenges and future research directions, including the integration of deep text hashing with large language models to further advance the field. The project for this survey can be accessed at https://github.com/hly1998/DeepTextHashing.
- Abstract(参考訳): インターネット上でのテキストコンテンツの急速な増加に伴い、効率的な大規模セマンティックテキスト検索がアカデミックと産業の双方から注目を集めている。
原文をコンパクトなバイナリハッシュコードに投影するテキストハッシュは、このタスクにとって重要な方法である。
バイナリコードを用いることで、テキストペアのセマンティック類似性計算が高速ハミング距離計算によって大幅に高速化され、ストレージコストが大幅に削減される。
ディープラーニングの進歩により、深層テキストハッシュは、従来のデータに依存しないハッシュ技術よりも大きな優位性を示している。
ディープニューラルネットワークを利用することで、これらの手法はデータから直接コンパクトでセマンティックにリッチなバイナリ表現を学習し、以前のアプローチのパフォーマンス制限を克服することができる。
本調査では,それらの中核となる構成要素であるセマンティック抽出,ハッシュコード品質の保存,その他の重要な技術に基づいて分類することで,現在のディープテキストハッシュ手法について検討する。
次に、いくつかの一般的なデータセットで結果が得られた詳細な評価スキーマを提示し、実践的なアプリケーションと実装のためのオープンソースツールについて議論する。
最後に,重要な課題と今後の研究の方向性について論じるとともに,大規模言語モデルと深層テキストハッシュを統合し,さらなる分野の進展を図った。
この調査のプロジェクトはhttps://github.com/hly1998/DeepTextHashing.comで見ることができる。
関連論文リスト
- Learning-Based Hashing for ANN Search: Foundations and Early Advances [0.5279475826661642]
ハッシュベースの手法は、高次元データをコンパクトなバイナリコードにマッピングすることで効率的な解を提供する。
過去20年にわたって、データから投影関数と量子化関数が最適化されるハッシュの学習について、かなりの研究が行われてきた。
この記事は、この分野を形作る中核的なアイデアに重点を置いて、早期学習に基づくハッシュ手法に関する基礎的な調査を提供する。
論文 参考訳(メタデータ) (2025-10-05T09:59:56Z) - SECRET: Towards Scalable and Efficient Code Retrieval via Segmented Deep Hashing [83.35231185111464]
ディープラーニングは、検索パラダイムを語彙ベースのマッチングから、ソースコードとクエリをベクトル表現にエンコードした。
従来の研究では、クエリやコードスニペットのハッシュコードを生成し、ハミング距離を使ってコード候補を高速にリコールするディープハッシュベースの手法が提案されている。
提案手法は,既存の深層ハッシュ法によって計算された長いハッシュコードを,反復的学習戦略により複数の短いハッシュコードセグメントに変換する手法である。
論文 参考訳(メタデータ) (2024-12-16T12:51:35Z) - Graph-based Semantical Extractive Text Analysis [0.0]
本研究では,テキストの部分間の意味的類似性を組み込むことで,TextRankアルゴリズムの結果を改善する。
キーワード抽出とテキスト要約とは別に,本フレームワークに基づくトピッククラスタリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-19T18:30:26Z) - Representation Learning for Efficient and Effective Similarity Search
and Recommendation [6.280255585012339]
この論文は、より表現力のある表現とより効果的な類似度尺度を通じてハッシュコードの有効性を向上させる表現学習に貢献する。
コントリビューションは、類似性検索とレコメンデーションに関連するいくつかのタスクで実証的に検証される。
論文 参考訳(メタデータ) (2021-09-04T08:19:01Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - A Survey on Deep Hashing Methods [52.326472103233854]
最寄りの検索は、データベースからクエリまでの距離が最小のサンプルを取得することを目的としている。
ディープラーニングの発展により、ディープハッシュ法は従来の方法よりも多くの利点を示す。
深い教師付きハッシュは、ペアワイズ法、ランキングベースの方法、ポイントワイズ法、量子化に分類される。
深い教師なしハッシュは、類似性再構築に基づく方法、擬似ラベルに基づく方法、予測自由な自己教師あり学習に基づく方法に分類される。
論文 参考訳(メタデータ) (2020-03-04T08:25:15Z) - A Novel Incremental Cross-Modal Hashing Approach [21.99741793652628]
我々は「iCMH」と呼ばれる新しい漸進的クロスモーダルハッシュアルゴリズムを提案する。
提案手法は,ハッシュコードを学習し,ハッシュ関数を訓練する2つの段階からなる。
さまざまなクロスモーダルデータセットの実験と最先端のクロスモーダルアルゴリズムとの比較は、我々のアプローチの有用性を示している。
論文 参考訳(メタデータ) (2020-02-03T12:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。