論文の概要: ReasonEmbed: Enhanced Text Embeddings for Reasoning-Intensive Document Retrieval
- arxiv url: http://arxiv.org/abs/2510.08252v1
- Date: Thu, 09 Oct 2025 14:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.117049
- Title: ReasonEmbed: Enhanced Text Embeddings for Reasoning-Intensive Document Retrieval
- Title(参考訳): ReasonEmbed: 推論集約型ドキュメント検索のための拡張テキスト埋め込み
- Authors: Jianlyu Chen, Junwei Lan, Chaofan Li, Defu Lian, Zheng Liu,
- Abstract要約: ReasonEmbedは、推論集約的な文書検索のために開発された新しいテキスト埋め込みモデルである。
ReMixerは、過去の合成データセットでよく見られる自明性問題を克服する新しいデータ合成手法である。
Redapterは自己適応学習アルゴリズムで、推論強度に基づいて各サンプルの重量を動的に調整する。
- 参考スコア(独自算出の注目度): 46.111605335278746
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce ReasonEmbed, a novel text embedding model developed for reasoning-intensive document retrieval. Our work includes three key technical contributions. First, we propose ReMixer, a new data synthesis method that overcomes the triviality problem prevalent in previous synthetic datasets, enabling large-scale production of 82K high-quality training samples. Second, we design Redapter, a self-adaptive learning algorithm that dynamically adjusts training each sample's weight based on its reasoning intensity. This allows the model to effectively capture the complex semantic relationships between queries and documents. Third, we implement ReasonEmbed across multiple backbones of varying sizes, all of which achieve superior performance on reasoning-intensive retrieval tasks. Notably, our ReasonEmbed-Qwen3-8B model offers a record-high nDCG@10 score of 38.1 on the BRIGHT benchmark, which significantly outperforms existing text embedding models. We will fully open-source our created resources in ReasonEmbed to push forward the research advancement in this field.
- Abstract(参考訳): 本稿では、推論集約的な文書検索のために開発された新しいテキスト埋め込みモデルReasonEmbedを紹介する。
私たちの仕事には3つの重要な技術貢献があります。
まず,従来の合成データセットで発生する自明性問題を克服し,82Kの高品質なトレーニングサンプルを大規模に作成できる新しいデータ合成手法であるReMixerを提案する。
第2に,自己適応学習アルゴリズムであるRedapterを設計し,その推論強度に基づいて各試料の重量を動的に調整する。
これにより、クエリとドキュメントの間の複雑なセマンティックな関係を効果的にキャプチャできる。
第三に、さまざまなサイズの複数のバックボーンにReasonEmbedを実装し、推論集約的な検索タスクにおいて優れたパフォーマンスを実現する。
特に、我々のReasonEmbed-Qwen3-8Bモデルでは、BRIGHTベンチマークでNDCG@10スコアが38.1で、既存のテキスト埋め込みモデルよりも大幅に優れています。
私たちはReasonEmbedで作成したリソースを完全にオープンソース化し、この分野の研究の進展を推し進めます。
関連論文リスト
- SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - Improving Embedding Accuracy for Document Retrieval Using Entity Relationship Maps and Model-Aware Contrastive Sampling [0.0]
APEX-Embedding-7Bは、7ビリオンパラメータデコーダのみのテキスト特徴抽出モデルである。
このアプローチでは2つのトレーニング手法を採用して,現実の焦点を即時的に改善する。
本モデルでは,より長いコンテキスト文書検索タスクに対して,テキスト特徴抽出における最先端の標準を新たに確立する。
論文 参考訳(メタデータ) (2024-10-08T17:36:48Z) - CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。
本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。
当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文 参考訳(メタデータ) (2024-03-13T05:38:39Z) - Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models [29.94694305204144]
本稿では,文書レベルのインコンテクスト・イン・ショット関係抽出のための新しいフレームワークを提案する。
ドキュメントレベルの関係抽出用データセットとして最大であるDocREDを用いて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-17T09:10:27Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。