論文の概要: TeleEmbedBench: A Multi-Corpus Embedding Benchmark for RAG in Telecommunications
- arxiv url: http://arxiv.org/abs/2604.17778v1
- Date: Mon, 20 Apr 2026 04:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.684819
- Title: TeleEmbedBench: A Multi-Corpus Embedding Benchmark for RAG in Telecommunications
- Title(参考訳): TeleEmbedBench: 通信におけるRAGのためのマルチコーパス埋め込みベンチマーク
- Authors: Pranshav Gajjar, Vijay K Shah,
- Abstract要約: 大規模言語モデル(LLM)は、重要なタスクのために電気通信領域にますます多くデプロイされている。
TeleEmbedBenchは,通信専用に設計された,最初の大規模マルチコーパス埋め込みベンチマークである。
- 参考スコア(独自算出の注目度): 2.2508462342902633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in the telecommunications domain for critical tasks, relying heavily on Retrieval-Augmented Generation (RAG) to adapt general-purpose models to continuously evolving standards. However, a significant gap exists in evaluating the embedding models that power these RAG pipelines, as general-purpose benchmarks fail to capture the dense, acronym-heavy, and highly cross-referential nature of telecommunications corpora. To address this, we introduce TeleEmbedBench, the first large-scale, multi-corpus embedding benchmark designed specifically for telecommunications. The benchmark spans three heterogeneous corpora: O-RAN Alliance specifications, 3GPP release documents, and the srsRAN open-source codebase, comprising 9,000 question-chunk pairs across three standard chunk sizes (512, 1024, and 2048 tokens). To construct this dataset at scale without manual annotation bottlenecks, we employ a novel automated pipeline where one LLM generates specific queries from text chunks and a secondary LLM validates them across strict criteria. We comprehensively evaluate eight embedding models, spanning standard sentence-transformers and LLM-based embedders. Our results demonstrate that LLM-based embedders, such as Qwen3 and EmbeddingGemma, consistently and significantly outperform traditional sentence-transformers in both retrieval accuracy and robustness against cross-domain interference. Additionally, we introduce TeleEmbedBench-Clean to evaluate model robustness against noisy, incomplete user queries. Finally, our analysis reveals that while domain-specific task instructions improve embedder performance for raw source code, they paradoxically degrade retrieval performance for natural language telecommunications specifications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、通信分野において重要なタスクのためにますます多くデプロイされており、汎用モデルを継続的な進化標準に適応させるために、RAG(Retrieval-Augmented Generation)に大きく依存している。
しかしながら、これらのRAGパイプラインを駆動する埋め込みモデルを評価する際には、一般的なベンチマークでは密度が高く、頭字語重大で、通信コーパスの非常に相互参照的な性質を捉えることができないため、大きなギャップがある。
この問題を解決するためにテレエンベドベンチ(TeleEmbedBench)は,通信専用に設計された,最初の大規模マルチコーパス埋め込みベンチマークである。
O-RAN Alliance仕様、3GPPリリース文書、3つの標準チャンクサイズ(512、1024、2048トークン)の9000の質問チャンクペアからなるsrsRANオープンソースコードベースである。
このデータセットを手動のアノテーションのボトルネックなく大規模に構築するために,1つのLLMがテキストチャンクから特定のクエリを生成し,セカンダリLLMが厳格な基準で検証する,新しい自動パイプラインを用いる。
我々は,標準文変換器とLLMベースの埋め込み器にまたがる8つの埋め込みモデルを包括的に評価した。
以上の結果から,Qwen3 や EmbeddingGemma などの LLM ベースの埋め込みは,検索精度とドメイン間干渉に対する堅牢性の両方において,従来の文変換器よりも一貫して,はるかに優れていた。
さらにTeleEmbedBench-Cleanを導入し、ノイズや不完全なユーザクエリに対するモデルロバスト性を評価する。
最後に、ドメイン固有のタスク命令は、ソースコードの埋め込み性能を改善するが、自然言語通信仕様の検索性能はパラドックス的に劣化することを示した。
関連論文リスト
- Detecting the Machine: A Comprehensive Benchmark of AI-Generated Text Detectors Across Architectures, Domains, and Adversarial Conditions [0.0]
既存のベンチマークでは、理想的な条件下で単一のデータセット上の1つの検出器を評価する。
本稿では,2つのコーパスにまたがる多様な検出手法を評価するベンチマークを提案する。
その結果, 変圧器モデルでは, ほぼ完全な分散性能が得られるが, ドメインシフト下では劣化することがわかった。
論文 参考訳(メタデータ) (2026-03-18T09:27:27Z) - RAGTrack: Language-aware RGBT Tracking with Retrieval-Augmented Generation [71.2136732268131]
RGB-Thermal(RGBT)トラッキングは、多様な環境条件をまたいだ堅牢なオブジェクトローカライゼーションを実現することを目的としている。
既存のRGBTトラッカーは、ターゲットモデリングのための初期フレームの視覚情報のみに依存している。
堅牢なRGBTトラッキングのための新しい検索拡張フレームワークであるRAGTrackを提案する。
論文 参考訳(メタデータ) (2026-03-04T01:02:04Z) - RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。
C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。
SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文 参考訳(メタデータ) (2026-02-28T14:47:34Z) - A Generalizable Framework for Building Executable Domain-Specific LLMs under Data Scarcity: Demonstration on Semiconductor TCAD Simulation [20.174394305112198]
低リソース環境下でコンパクトで実行可能なドメイン固有LLMを構築するためのフレームワークを提案する。
半導体コンピュータ支援設計(TCAD)のためのTcadGPTのインスタンス化によるフレームワークの実証
1.5Mの合成QAペアとIR駆動のDPOデータセットを使用して、TcadGPTはSDE実行可能性テストにおいて85.6%のセマンティック精度と80.0%の構文パスレートを達成した。
論文 参考訳(メタデータ) (2026-01-15T07:13:34Z) - How to Discover Knowledge for FutureG: Contextual RAG and LLM Prompting for O-RAN [5.589132273787205]
我々は5G/6Gネットワークにおいて,O-RAN(Open Radio Access Network)が非集約型AI駆動無線システムの中心となる検索拡張型質問応答フレームワークを提案する。
この課題に対処するために、我々はContextual Retrieval-Augmented Generation (Contextual RAG)を採用する。
我々は、Contextual RAGが、競争力のあるランタイムとCO2排出量を維持しながら、標準のRAGとランタイムよりも一貫して精度を向上することを示します。
論文 参考訳(メタデータ) (2025-12-18T18:03:59Z) - RAG-IGBench: Innovative Evaluation for RAG-based Interleaved Generation in Open-domain Question Answering [50.42577862494645]
本稿では,RAG-IG(Retrieval-Augmented Generation)に基づくインターリーブドジェネレーション(Interleaved Generation)の課題を評価するためのベンチマークであるRAG-IGBenchを提案する。
RAG-IGは、MLLM(Multimodal large language model)と検索機構を統合し、モデルがコヒーレントなマルチモーダルコンテンツを生成するための外部画像テキスト情報にアクセスできるようにする。
論文 参考訳(メタデータ) (2025-10-11T03:06:39Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - TelecomGPT: A Framework to Build Telecom-Specfic Large Language Models [7.015008083968722]
大きな言語モデル(LLM)は、第6世代(6G)通信ネットワークに革命をもたらす可能性がある。
本稿では,汎用LLMを通信用LLMに適応させるパイプラインを提案する。
既存の評価ベンチマークを拡張し、Telecom Math Modeling、Telecom Open QnA、Telecom Code Tasksという3つの新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-12T16:51:02Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。