論文の概要: Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings
- arxiv url: http://arxiv.org/abs/2506.08592v1
- Date: Tue, 10 Jun 2025 09:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.063106
- Title: Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings
- Title(参考訳): Dense Retrieversは単純なクエリで失敗する: 埋め込みの粒度ジレンマを明らかにする
- Authors: Liyan Xu, Zhenlin Su, Mo Yu, Jiangnan Li, Fandong Meng, Jie Zhou,
- Abstract要約: この研究は、テキストエンコーダの観察された制限に焦点を当てている。埋め込みはセマンティクス内のきめ細かいエンティティやイベントを認識できない可能性がある。
我々は中国語で新しい評価データセットであるCapRetrievalを紹介し、その文節は画像キャプションであり、クエリは様々な形式のエンティティやイベントを問うフレーズである。
ゼロショット評価は、トレーニングソースやモデルサイズに関わらず、エンコーダがこれらのきめ細かいマッチングで失敗する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 78.05609552686053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on an observed limitation of text encoders: embeddings may not be able to recognize fine-grained entities or events within the semantics, resulting in failed dense retrieval on even simple cases. To examine such behaviors, we first introduce a new evaluation dataset in Chinese, named CapRetrieval, whose passages are image captions, and queries are phrases inquiring entities or events in various forms. Zero-shot evaluation suggests that encoders may fail on these fine-grained matching, regardless of training sources or model sizes. Aiming for enhancement, we proceed to finetune encoders with our proposed data generation strategies, which obtains the best performance on CapRetrieval. Within this process, we further identify an issue of granularity dilemma, a challenge for embeddings to express fine-grained salience while aligning with overall semantics. Our dataset, code and models in this work are publicly released at https://github.com/lxucs/CapRetrieval.
- Abstract(参考訳): この研究は、テキストエンコーダの観測された制限に焦点を当てている:埋め込みはセマンティクス内のきめ細かい実体や事象を認識できないかもしれない。
このような振る舞いを調べるために、まず、中国語でCapRetrievalと呼ばれる新しい評価データセットを紹介し、その文節は画像キャプションであり、クエリは様々な形式のエンティティやイベントを問うフレーズである。
ゼロショット評価は、トレーニングソースやモデルサイズに関わらず、エンコーダがこれらのきめ細かいマッチングで失敗する可能性があることを示唆している。
拡張を目指して,提案したデータ生成戦略でエンコーダを微調整し,CapRetrievalで最高の性能を得る。
本プロセスでは, 粒度ジレンマ, 埋め込みによる微細なサリエンスを表現する上での課題を, 全体意味論と整合しながらさらに同定する。
この作業のデータセット、コード、モデルはhttps://github.com/lxucs/CapRetrieval.comで公開されています。
関連論文リスト
- Exploiting Inherent Class Label: Towards Robust Scribble Supervised Semantic Segmentation [15.439883888976464]
頑健なスクリブル教師付きセマンティックセマンティックセグメンテーションのためのクラス駆動型スクリブルプロモーションネットワークを提案する。
ネットワーク内では,ノイズラベルを緩和するローカライゼーション修正モジュールと,スクリブルアノテーションや擬似ラベルを取り巻く信頼性のある領域を識別する距離知覚モジュールを導入する。
提案手法は,既存の手法よりも優れていることを示すとともに,精度と堅牢性の両方において競争性能を示す。
論文 参考訳(メタデータ) (2025-03-18T04:43:07Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - PRIME: Prioritizing Interpretability in Failure Mode Extraction [49.93565079216376]
訓練された画像分類モデルにおいて、故障モードに対する人間の理解可能な記述を提供することの課題について検討する。
本稿では,この問題における解釈可能性を重視した新しい手法を提案する。
本手法は,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。
論文 参考訳(メタデータ) (2023-09-29T22:00:12Z) - Conjunct Resolution in the Face of Verbal Omissions [51.220650412095665]
本稿では,テキスト上で直接動作する接続分解タスクを提案し,コーディネーション構造に欠けている要素を復元するために,分割・言い換えパラダイムを利用する。
クラウドソースアノテーションによる自然に発生する動詞の省略例を10万件以上を含む,大規模なデータセットをキュレートする。
我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:44:02Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。