Fugu-MT 論文翻訳(概要): Evaluating Embedding Models and Pipeline Optimization for AI Search Quality

論文の概要: Evaluating Embedding Models and Pipeline Optimization for AI Search Quality

arxiv url: http://arxiv.org/abs/2511.22240v1
Date: Thu, 27 Nov 2025 09:09:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-01 19:47:55.471673
Title: Evaluating Embedding Models and Pipeline Optimization for AI Search Quality
Title（参考訳）: AI検索品質のための埋め込みモデルとパイプライン最適化の評価
Authors: Philip Zhong, Kent Chen, Don Wang,
Abstract要約: 我々は,AI駆動検索システムにおける各種テキスト埋め込みモデルとパイプライン構成の性能を評価する。 11,975対のクエリチャンクペアのカスタム評価データセットを,米国市議会の会議記録から合成した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We evaluate the performance of various text embedding models and pipeline configurations for AI-driven search systems. We compare sentence-transformer and generative embedding models (e.g., All-MPNet, BGE, GTE, and Qwen) at different dimensions, indexing methods (Milvus HNSW/IVF), and chunking strategies. A custom evaluation dataset of 11,975 query-chunk pairs was synthesized from US City Council meeting transcripts using a local large language model (LLM). The data pipeline includes preprocessing, automated question generation per chunk, manual validation, and continuous integration/continuous deployment (CI/CD) integration. We measure retrieval accuracy using reference-based metrics: Top-K Accuracy and Normalized Discounted Cumulative Gain (NDCG). Our results demonstrate that higher-dimensional embeddings significantly boost search quality (e.g., Qwen3-Embedding-8B/4096 achieves Top-3 accuracy about 0.571 versus 0.412 for GTE-large/1024), and that neural re-rankers (e.g., a BGE cross-encoder) further improve ranking accuracy (Top-3 up to 0.527). Finer-grained chunking (512 characters versus 2000 characters) also improves accuracy. We discuss the impact of these factors and outline future directions for pipeline automation and evaluation.
Abstract（参考訳）: 我々は,AI駆動検索システムにおける各種テキスト埋め込みモデルとパイプライン構成の性能を評価する。文変換器と生成埋め込みモデル(例えば、All-MPNet、BGE、GTE、Qwen)を異なる次元で比較し、インデックス化手法(Milvus HNSW/IVF)とチャンキング戦略を比較した。ローカルな大規模言語モデル(LLM)を用いて,米国市議会の会議記録から,11,975対のクエリ・チャンク・ペアのカスタム評価データセットを合成した。データパイプラインには、前処理、チャンク毎の自動質問生成、手動検証、継続的インテグレーション/継続的デプロイメント(CI/CD)統合が含まれている。基準ベースメトリクスを用いて,Top-K精度と正規化カウント累積ゲイン(NDCG)を用いて,検索精度を測定した。以上の結果から, 高次元埋め込みは検索品質を著しく向上させる(例えばQwen3-Embedding-8B/4096は, GTE-large/1024では0.571対0.412)。きめ細かいチャンキング(512文字対2000文字)も精度を向上させる。これらの要因の影響について論じ、パイプラインの自動化と評価の今後の方向性について概説する。

関連論文リスト

AutoMetrics: Approximate Human Judgements with Automatically Generated Evaluators [57.003100107659684]
AutoMetricsは、低データ制約下で評価メトリクスを合成するためのフレームワークである。 AutoMetricsは、同等の効果を検証可能な報酬として、プロキシ報酬として使用できることを示す。
論文参考訳（メタデータ） (2025-12-19T06:32:46Z)
Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。 COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文参考訳（メタデータ） (2025-10-14T17:59:54Z)
Open-Source Agentic Hybrid RAG Framework for Scientific Literature Review [2.092154729589438]
本稿では,ハイブリッドRAGパイプラインを自律エージェント内にカプセル化するエージェントアプローチを提案する。当社のパイプラインでは,PubMedやarXiv,Google Scholar APIから,バイオロジカルなオープンアクセスデータを収集しています。 Llama-3.3-70B エージェントが GraphRAG (クエリを Cypher for KG に変換する) または VectorRAG (スパースと高密度検索を組み合わせて再ランク付けする) を選択する
論文参考訳（メタデータ） (2025-07-30T18:54:15Z)
Enhancing Domain-Specific Retrieval-Augmented Generation: Synthetic Data Generation and Evaluation using Reasoning Models [0.6827423171182154]
Retrieval-Augmented Generation (RAG) システムは、技術的領域に適用した場合、大きなパフォーマンスギャップに直面します。ドメイン固有のRAG性能を最適化するために、粒度評価指標と合成データ生成を組み合わせたフレームワークを提案する。 10トークン未満の小さなチャンクは、精度を31-42%向上させます。
論文参考訳（メタデータ） (2025-02-21T06:38:57Z)
FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。条件設定では、太陽予測において優れた性能を達成している。
論文参考訳（メタデータ） (2024-11-12T03:03:23Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Enhancing Q&A Text Retrieval with Ranking Models: Benchmarking, fine-tuning and deploying Rerankers for RAG [1.8448587047759064]
本稿では、様々な公開ランキングモデルをベンチマークし、ランキング精度への影響について検討する。本稿では,質問応答タスクのテキスト検索に焦点をあてる。これはRetrieval-Augmented Generationシステムにおける一般的なユースケースである。我々は,現在最先端のランキングモデルであるNV-RerankQA-Mistral-4B-v3を導入する。
論文参考訳（メタデータ） (2024-09-12T01:51:06Z)
NUDGE: Lightweight Non-Parametric Fine-Tuning of Embeddings for Retrieval [0.7646713951724011]
既存のアプローチは、事前訓練されたモデル自体を微調整するか、より効率的に、事前訓練されたモデルの出力を変換するためにアダプタモデルを訓練する。 NUDGEは、新しい非パラメトリック埋め込みファインチューニングアプローチのファミリーである。 NUDGEは、$k$-NN検索の精度を最大化するために、データレコードの埋め込みを直接修正する。
論文参考訳（メタデータ） (2024-09-04T00:10:36Z)
Approximation-Aware Bayesian Optimization [34.56666383247348]
高次元ベイズ最適化(BO)タスクは、意味のある結果を得る前に10,000の関数評価を必要とすることが多い。本稿では,小変動ガウス過程 (SVGP) をBOの目標とよく一致させるために修正する。ユーティリティ校正変分推論の枠組みを用いて,GP近似とデータ取得を共同最適化問題に統一する。
論文参考訳（メタデータ） (2024-06-06T17:55:02Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。 T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-12-12T06:29:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。