論文の概要: A Comparative Study of Specialized LLMs as Dense Retrievers
- arxiv url: http://arxiv.org/abs/2507.03958v1
- Date: Sat, 05 Jul 2025 08:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.955925
- Title: A Comparative Study of Specialized LLMs as Dense Retrievers
- Title(参考訳): ディエンスレトリバーとしての特殊LLMの比較検討
- Authors: Hengran Zhang, Keping Bi, Jiafeng Guo,
- Abstract要約: 本研究では,大規模言語モデル(LLM)におけるタスク固有適応が検索能力にどのように影響するかを系統的に検討する。
我々は,Qwen2.5 7B LLMをベース,命令調整,コード/マス特化,長い推論,視覚言語モデルを含む8つの実験を行った。
数学的特殊化と長い推論能力は、3つの設定で一貫した劣化を引き起こし、数学的推論とセマンティックマッチングの矛盾を示す。
- 参考スコア(独自算出の注目度): 29.504113759761527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) are increasingly deployed as dense retrievers, the impact of their domain-specific specialization on retrieval effectiveness remains underexplored. This investigation systematically examines how task-specific adaptations in LLMs influence their retrieval capabilities, an essential step toward developing unified retrievers capable of handling text, code, images, and multimodal content. We conduct extensive experiments with eight Qwen2.5 7B LLMs, including base, instruction-tuned, code/math-specialized, long reasoning, and vision-language models across zero-shot retrieval settings and the supervised setting. For the zero-shot retrieval settings, we consider text retrieval from the BEIR benchmark and code retrieval from the CoIR benchmark. Further, to evaluate supervised performance, all LLMs are fine-tuned on the MS MARCO dataset. We find that mathematical specialization and the long reasoning capability cause consistent degradation in three settings, indicating conflicts between mathematical reasoning and semantic matching. The vision-language model and code-specialized LLMs demonstrate superior zero-shot performance compared to other LLMs, even surpassing BM25 on the code retrieval task, and maintain comparable performance to base LLMs in supervised settings. These findings suggest promising directions for the unified retrieval task leveraging cross-domain and cross-modal fusion.
- Abstract(参考訳): 大規模言語モデル (LLMs) は高密度レトリバーとしてますます普及しているが, ドメイン固有の特殊化が検索効率に与える影響は未解明のままである。
本研究は,LLMにおけるタスク固有の適応が検索能力にどのように影響するかを系統的に検討し,テキスト,コード,画像,マルチモーダルコンテンツを処理可能な統一検索器の開発に向けた重要なステップである。
ゼロショット検索設定と教師付き設定を含む8つのQwen2.5 7B LLMを用いて、ベース、命令調整、コード/マス特化、長い推論、視覚言語モデルを含む広範囲な実験を行う。
ゼロショット検索設定では、BEIRベンチマークからのテキスト検索とCoIRベンチマークからのコード検索を検討する。
さらに、教師付き性能を評価するために、すべてのLCMをMS MARCOデータセット上で微調整する。
数学的特殊化と長い推論能力は、3つの設定で一貫した劣化を引き起こし、数学的推論とセマンティックマッチングの矛盾を示す。
ビジョン言語モデルとコード特殊化LLMは、他のLLMよりも優れたゼロショット性能を示し、コード検索タスクではBM25を超え、教師付き設定ではベースLLMに匹敵する性能を維持している。
これらの結果から,クロスドメインとクロスモーダル融合を利用した統合検索タスクの期待できる方向性が示唆された。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。