論文の概要: LLM2IR: simple unsupervised contrastive learning makes long-context LLM great retriever
- arxiv url: http://arxiv.org/abs/2601.05262v1
- Date: Fri, 31 Oct 2025 21:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.529221
- Title: LLM2IR: simple unsupervised contrastive learning makes long-context LLM great retriever
- Title(参考訳): LLM2IR: 簡単な教師なしコントラスト学習によりLLMの長文検索が可能に
- Authors: Xiaocong Yang,
- Abstract要約: 本稿では,デコーダのみの大規模言語モデルを情報検索モデルに変換するための,効率的な非教師付きコントラスト学習フレームワーク LLM2IR を紹介する。
その単純さにもかかわらず、LoCo、LongEmbed、BEIRを含む複数のIRベンチマーク上で異なるLLM間で有効性が証明されている。
また、コンテキスト長の長いモデルでは、同じモデルファミリーのモデルのタスク性能を比較することにより、より強いIR能力を持つ傾向にある。
- 参考スコア(独自算出の注目度): 2.1550607598300617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern dense information retrieval (IR) models usually rely on costly large-scale pretraining. In this paper, we introduce LLM2IR, an efficient unsupervised contrastive learning framework to convert any decoder-only large language model (LLM) to an information retrieval model. Despite its simplicity, the effectiveness is proven among different LLMs on multiple IR benchmarks including LoCo, LongEmbed and BEIR. We also find that models with a longer context length tend to have a stronger IR capacity by comparing task performances of models in the same model family. Our work not only provides an effective way to build IR models on the state-of-the-art LLMs, but also shed light on the relationship between information retrieval ability and model context length, which helps the design of better information retrievers.
- Abstract(参考訳): 現代の密集情報検索(IR)モデルは通常、高価な大規模事前訓練に依存している。
本稿では,デコーダのみの大規模言語モデル(LLM)を情報検索モデルに変換するための,効率的な教師なしコントラスト学習フレームワークであるLLM2IRを紹介する。
その単純さにもかかわらず、LoCo、LongEmbed、BEIRを含む複数のIRベンチマーク上で異なるLLM間で有効性が証明されている。
また、コンテキスト長の長いモデルでは、同じモデルファミリーのモデルのタスク性能を比較することにより、より強いIR能力を持つ傾向にある。
我々の研究は、最先端のLCM上にIRモデルを構築する効果的な方法を提供するだけでなく、情報検索能力とモデルコンテキスト長の関係にも光を当て、より優れた情報検索ツールの設計を支援する。
関連論文リスト
- LightPROF: A Lightweight Reasoning Framework for Large Language Model on Knowledge Graph [57.382255728234064]
大きな言語モデル(LLM)は、テキスト理解とゼロショット推論において素晴らしい能力を持っている。
知識グラフ(KG)は、LLMの推論プロセスに対して、リッチで信頼性の高いコンテキスト情報を提供する。
我々は、KGQA(LightPROF)のための新しい軽量で効率的なPrompt Learning-ReasOning Frameworkを提案する。
論文 参考訳(メタデータ) (2025-04-04T03:03:47Z) - DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers [86.54316283425001]
大規模言語モデル(LLM)は、高密度レトリバーとして微調整されている間、強い有効性と堅牢性を示している。
LLMは効率が良いが、教師付き微調整データで効率的に一般化できないことが多い。
我々は、LLMを活用してより小さな一般化可能な高密度レトリバーを訓練するトレーニングフレームワークであるDRAMAを紹介する。
論文 参考訳(メタデータ) (2025-02-25T18:59:07Z) - Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data [39.29778853025738]
大規模言語モデル(LLM)は、幅広い下流タスクにおいて有能なパフォーマンスを実現している。
本稿では、オン・ポリシー・ラーニングを用いて言語モデルを微調整し、入力された構造化データの縮小版を生成するフレームワークであるLearning to Reduceを提案する。
論文 参考訳(メタデータ) (2024-07-03T01:51:50Z) - Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。
自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文 参考訳(メタデータ) (2024-02-23T18:45:35Z) - Small Language Models as Effective Guides for Large Language Models in Chinese Relation Extraction [7.8274692517258435]
本稿では,モデルコラボレーションフレームワークSLCoLMを提案する。
本フレームワークでは,SLM(Small-Training-Guide-Predict')とLLM(Large Language Model)の長所を組み合わせるために,TextitTraining-Guide-Predict'戦略を用いる。
関係型に富んだ古代中国のREデータセットを用いた実験により,この手法が長尾関係型のREを促進することを示す。
論文 参考訳(メタデータ) (2024-02-22T08:26:56Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。