論文の概要: An Open-Source Dual-Loss Embedding Model for Semantic Retrieval in Higher Education
- arxiv url: http://arxiv.org/abs/2505.04916v1
- Date: Thu, 08 May 2025 03:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.733519
- Title: An Open-Source Dual-Loss Embedding Model for Semantic Retrieval in Higher Education
- Title(参考訳): 高等教育における意味検索のためのオープンソースデュアルロス埋め込みモデル
- Authors: Ramteja Sajja, Yusuf Sermet, Ibrahim Demir,
- Abstract要約: 本研究では,2つのオープンソースの埋め込みモデルについて,質問応答の微調整を行った。
手動キュレーションと大規模言語モデル(LLM)を併用して,3,197の文対の合成データセットを構築した。
1)MNRL(MultipleNegativesRankingLoss)を用いて微調整されたベースラインモデルと,2)MNRLとCosineSimilarityLossを併用して意味的ランク付けと類似度校正の両方を改善するデュアルロスモデル,の2つのトレーニング戦略が評価された。
- 参考スコア(独自算出の注目度): 0.30723404270319693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in AI have catalyzed the adoption of intelligent educational tools, yet many semantic retrieval systems remain ill-suited to the unique linguistic and structural characteristics of academic content. This study presents two open-source embedding models fine-tuned for educational question answering, particularly in the context of course syllabi. A synthetic dataset of 3,197 sentence pairs, spanning synonymous terminology, paraphrased questions, and implicit-explicit mappings, was constructed through a combination of manual curation and large language model (LLM)-assisted generation. Two training strategies were evaluated: (1) a baseline model fine-tuned using MultipleNegativesRankingLoss (MNRL), and (2) a dual-loss model that combines MNRL with CosineSimilarityLoss to improve both semantic ranking and similarity calibration. Evaluations were conducted on 28 university course syllabi using a fixed set of natural language questions categorized into course, faculty, and teaching assistant information. Results demonstrate that both fine-tuned models outperform strong open-source baselines, including all-MiniLM-L6-v2 and multi-qa-MiniLM-L6-cos-v1, and that the dual-loss model narrows the performance gap with high-performing proprietary embeddings such as OpenAI's text-embedding-3 series. This work contributes reusable, domain-aligned embedding models and provides a replicable framework for educational semantic retrieval, supporting downstream applications such as academic chatbots, retrieval-augmented generation (RAG) systems, and learning management system (LMS) integrations.
- Abstract(参考訳): 近年のAIの進歩は、インテリジェントな教育ツールの採用に拍車をかけたが、多くの意味検索システムは、学術コンテンツ特有の言語的・構造的特性に不適なままである。
本研究では,2つのオープンソースの埋め込みモデルについて,特にシラビの文脈において,質問応答の微調整を行った。
3,197の文対からなる合成データセットを,手作業によるキュレーションと大規模言語モデル(LLM)による生成によって構築した。
1)MNRL(MultipleNegativesRankingLoss)を用いて微調整されたベースラインモデルと,2)MNRLとCosineSimilarityLossを併用して意味的ランク付けと類似度校正の両方を改善するデュアルロスモデル,の2つのトレーニング戦略が評価された。
授業・教員・教職情報に分類した自然言語質問の定式化を用いて,28の大学コース・シラビで評価を行った。
両モデルとも,全MiniLM-L6-v2 や Multi-qa-MiniLM-L6-cos-v1 など,オープンソースベースラインよりも優れた性能を示し,OpenAI のtext-embedding-3 シリーズのような高性能な独自埋め込みによる性能ギャップを狭めている。
この研究は、再利用可能なドメイン整合型埋め込みモデルに貢献し、教育意味検索のための複製可能なフレームワークを提供し、学術チャットボット、検索拡張生成(RAG)システム、学習管理システム(LMS)統合などの下流アプリケーションをサポートする。
関連論文リスト
- Teaching Smaller Language Models To Generalise To Unseen Compositional Questions (Full Thesis) [0.0]
私たちは、検索したコンテキストを推論する能力を注入することで、さまざまな質問に答えるようにモデルを訓練します。
2つの知識ソースからコンテキストを取得し、ウィキペディアコーパスは、新しい拡張を持つマルチホップ高密度検索システムを用いてクエリし、より大規模な言語モデルから生成された論理から、より低いリソース環境下での動作を最適化した。
論文 参考訳(メタデータ) (2024-11-25T23:25:34Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Mixture-of-Instructions: Aligning Large Language Models via Mixture Prompting [7.103987978402038]
我々はMixture-of-Instructions (MoI)と呼ばれる新しいテクニックを紹介する。
MoIは命令パッキングと多様なシステムプロンプトを組み合わせて言語モデルのアライメント効率を高める戦略を採用している。
提案手法はオープンソースQwen-7B-chatモデルに適用され,Qwen-SFT-MoIの開発が完了した。
論文 参考訳(メタデータ) (2024-04-29T03:58:12Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。