論文の概要: Exploring Reasoning-Infused Text Embedding with Large Language Models for Zero-Shot Dense Retrieval
- arxiv url: http://arxiv.org/abs/2509.00276v1
- Date: Fri, 29 Aug 2025 23:22:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.157374
- Title: Exploring Reasoning-Infused Text Embedding with Large Language Models for Zero-Shot Dense Retrieval
- Title(参考訳): ゼロショットディエンス検索のための大規模言語モデルを用いた推論拡散テキストの探索
- Authors: Yuxiang Liu, Tian Wang, Gourab Kundu, Tianyu Cao, Guang Cheng, Zhen Ge, Jianshu Chen, Qingjun Cui, Trishul Chilimbi,
- Abstract要約: Reasoning-Infused Text Embeddingは、埋め込みを計算する前に中間的推論テキストを生成することによって、既存の言語モデル埋め込み技術に基づいている。
推論集約型検索ベンチマークBRIGHTの結果、RITEは多様な領域にわたるゼロショット検索性能を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 24.53573526375476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models such as BERT and E5 have significantly advanced text embedding by capturing rich contextual representations. However, many complex real-world queries require sophisticated reasoning to retrieve relevant documents beyond surface-level lexical matching, where encoder-only retrievers often fall short. Decoder-only large language models (LLMs), known for their strong reasoning capabilities, offer a promising alternative. Despite this potential, existing LLM-based embedding methods primarily focus on contextual representation and do not fully exploit the reasoning strength of LLMs. To bridge this gap, we propose Reasoning-Infused Text Embedding (RITE), a simple but effective approach that integrates logical reasoning into the text embedding process using generative LLMs. RITE builds upon existing language model embedding techniques by generating intermediate reasoning texts in the token space before computing embeddings, thereby enriching representations with inferential depth. Experimental results on BRIGHT, a reasoning-intensive retrieval benchmark, demonstrate that RITE significantly enhances zero-shot retrieval performance across diverse domains, underscoring the effectiveness of incorporating reasoning into the embedding process.
- Abstract(参考訳): BERTやE5のようなトランスフォーマーベースのモデルは、リッチなコンテキスト表現をキャプチャすることで、かなり高度なテキスト埋め込みを実現している。
しかし、多くの複雑な実世界のクエリは、エンコーダのみのレトリバーが不足する表面レベルの語彙マッチングを超えて、関連ドキュメントを検索するために洗練された推論を必要とする。
強力な推論能力で知られるデコーダのみの大規模言語モデル(LLM)は、有望な代替手段を提供する。
この可能性にもかかわらず、既存のLLMベースの埋め込み手法は主に文脈表現に焦点を当てており、LLMの推論強度を完全に活用していない。
このギャップを埋めるために、生成LDMを用いたテキスト埋め込みプロセスに論理的推論を統合するシンプルで効果的な方法であるReasoning-Infused Text Embedding (RITE)を提案する。
RITEは、埋め込みを計算する前にトークン空間に中間的推論テキストを生成することによって、既存の言語モデル埋め込み技術に基づいており、したがって推論深度で表現を豊かにする。
推論集約型検索ベンチマークBRIGHTの実験結果から、RITEは様々な領域にわたるゼロショット検索性能を大幅に向上させ、推論を埋め込みプロセスに組み込むことの有効性を実証した。
関連論文リスト
- How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。
言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。
本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文 参考訳(メタデータ) (2025-08-25T06:43:27Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [6.549601823162279]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - GEM: Empowering LLM for both Embedding Generation and Language Understanding [11.081595808236239]
高品質なテキスト埋め込みを生成するために,GEM(Generative Embedding large Language Model)を提案する。
本手法では,新たな特殊トークンをテキスト本体に挿入し,アテンションマスクを操作することでテキストの要約埋め込みを生成する。
提案手法は,従来のNLP性能を維持しつつ,最先端のテキスト埋め込み機能でLCMを活用できることが示唆された。
論文 参考訳(メタデータ) (2025-06-04T18:02:07Z) - RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning [22.495874056980824]
本稿では,Representation Learning and textbfReasoning empowered search-textbfAugmented textbfLarge textbfLanguage model textbfRecommendation (RALLRec+)を提案する。
論文 参考訳(メタデータ) (2025-03-26T11:03:34Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。