論文の概要: Statistical Comparative Analysis of Semantic Similarities and Model Transferability Across Datasets for Short Answer Grading
- arxiv url: http://arxiv.org/abs/2508.15837v1
- Date: Tue, 19 Aug 2025 05:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.106016
- Title: Statistical Comparative Analysis of Semantic Similarities and Model Transferability Across Datasets for Short Answer Grading
- Title(参考訳): 短解グラフ作成のためのデータセット間の意味的類似性とモデル伝達可能性の統計的比較
- Authors: Sridevi Bonthu, S. Rama Sree, M. H. M. Krishna Prasad,
- Abstract要約: 本研究では、確立されたデータセットに基づいて訓練された最先端(SOTA)モデルの、未探索のテキストデータセットへの転送可能性について検討する。
この研究の主な目的は、SOTAモデルの潜在的な適用性と適応性に関する総合的な洞察を得ることである。
- 参考スコア(独自算出の注目度): 3.7723788828505125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developing dataset-specific models involves iterative fine-tuning and optimization, incurring significant costs over time. This study investigates the transferability of state-of-the-art (SOTA) models trained on established datasets to an unexplored text dataset. The key question is whether the knowledge embedded within SOTA models from existing datasets can be harnessed to achieve high-performance results on a new domain. In pursuit of this inquiry, two well-established benchmarks, the STSB and Mohler datasets, are selected, while the recently introduced SPRAG dataset serves as the unexplored domain. By employing robust similarity metrics and statistical techniques, a meticulous comparative analysis of these datasets is conducted. The primary goal of this work is to yield comprehensive insights into the potential applicability and adaptability of SOTA models. The outcomes of this research have the potential to reshape the landscape of natural language processing (NLP) by unlocking the ability to leverage existing models for diverse datasets. This may lead to a reduction in the demand for resource-intensive, dataset-specific training, thereby accelerating advancements in NLP and paving the way for more efficient model deployment.
- Abstract(参考訳): データセット固有のモデルを開発するには、反復的な微調整と最適化が必要で、時間とともにかなりのコストがかかる。
本研究では、確立されたデータセットに基づいて訓練された最先端(SOTA)モデルの、未探索のテキストデータセットへの転送可能性について検討する。
鍵となる疑問は、既存のデータセットからSOTAモデルに埋め込まれた知識が、新しいドメインで高性能な結果を得るために利用できるかどうかである。
この調査の後、STSBとMohlerデータセットという、確立された2つのベンチマークが選択され、最近導入されたSPRAGデータセットが探索されていないドメインとして機能する。
強靭な類似度指標と統計手法を用いることで、これらのデータセットの綿密な比較分析を行う。
この研究の主な目的は、SOTAモデルの潜在的な適用性と適応性に関する総合的な洞察を得ることである。
本研究の結果は,既存のモデルを多様なデータセットに活用することで,自然言語処理(NLP)の景観を再構築する可能性を秘めている。
これにより、リソース集約的なデータセット固有のトレーニングの需要が減少し、NLPの進歩が加速し、より効率的なモデルデプロイメントの道が開ける可能性がある。
関連論文リスト
- SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。
提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。
初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-19T17:57:36Z) - Analytics Modelling over Multiple Datasets using Vector Embeddings [0.0]
本稿では、利用可能なデータセットからモデルを作成することにより、分析演算子の結果を推測する新しい手法を提案する。
実験により,本フレームワークの予測性能と実行時間と,他の最先端のモデリング演算子フレームワークとの比較を行った。
論文 参考訳(メタデータ) (2025-02-24T11:21:08Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - How Much Data are Enough? Investigating Dataset Requirements for Patch-Based Brain MRI Segmentation Tasks [74.21484375019334]
ディープニューラルネットワークを確実にトレーニングするには、大規模なデータセットへのアクセスが必要である。
モデル開発に関連する時間的・経済的コストを緩和するためには,満足度の高いモデルをトレーニングするために必要なデータの量を明確に理解することが重要である。
本稿では,パッチベースのセグメンテーションネットワークのトレーニングに必要なアノテートデータの量を推定するための戦略的枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-04T13:55:06Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。