論文の概要: Comparative Analysis of 47 Context-Based Question Answer Models Across 8 Diverse Datasets
- arxiv url: http://arxiv.org/abs/2512.00323v1
- Date: Sat, 29 Nov 2025 05:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.169201
- Title: Comparative Analysis of 47 Context-Based Question Answer Models Across 8 Diverse Datasets
- Title(参考訳): 8つの異なるデータセット間の文脈に基づく質問応答モデルの比較分析
- Authors: Muhammad Muneeb, David B. Ascher, Ahsan Baidar Bakht,
- Abstract要約: コンテキストベースの質問応答(CBQA)モデルは、文脈情報を考慮してより正確で関連する回答を提供する。
我々はHugging Faceの47のCBQAモデルのパフォーマンスを8つの異なるデータセットでベンチマークした。
最高のパフォーマンスモデルはahotrod/electra_large_discriminator_squad2_512で、すべてのデータセットで43%の精度が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context-based question answering (CBQA) models provide more accurate and relevant answers by considering the contextual information. They effectively extract specific information given a context, making them functional in various applications involving user support, information retrieval, and educational platforms. In this manuscript, we benchmarked the performance of 47 CBQA models from Hugging Face on eight different datasets. This study aims to identify the best-performing model across diverse datasets without additional fine-tuning. It is valuable for practical applications where the need to retrain models for specific datasets is minimized, streamlining the implementation of these models in various contexts. The best-performing models were trained on the SQuAD v2 or SQuAD v1 datasets. The best-performing model was ahotrod/electra_large_discriminator_squad2_512, which yielded 43\% accuracy across all datasets. We observed that the computation time of all models depends on the context length and the model size. The model's performance usually decreases with an increase in the answer length. Moreover, the model's performance depends on the context complexity. We also used the Genetic algorithm to improve the overall accuracy by integrating responses from other models. ahotrod/electra_large_discriminator_squad2_512 generated the best results for bioasq10b-factoid (65.92\%), biomedical\_cpgQA (96.45\%), QuAC (11.13\%), and Question Answer Dataset (41.6\%). Bert-large-uncased-whole-word-masking-finetuned-squad achieved an accuracy of 82\% on the IELTS dataset.
- Abstract(参考訳): コンテキストベースの質問応答(CBQA)モデルは、文脈情報を考慮してより正確で関連する回答を提供する。
彼らは、与えられた特定の情報を効果的に抽出し、ユーザサポート、情報検索、教育プラットフォームを含む様々なアプリケーションで機能させる。
本論文では,Hugging Faceの47種類のCBQAモデルのパフォーマンスを8種類のデータセットでベンチマークした。
本研究は,追加の微調整を伴わずに,多種多様なデータセットにまたがる最高の性能モデルを特定することを目的とする。
特定のデータセットのモデルを再トレーニングする必要が最小限に抑えられ、これらのモデルの実装をさまざまなコンテキストで合理化する、実用的なアプリケーションにとって、これは有用である。
最高のパフォーマンスモデルは、SQuAD v2またはSQuAD v1データセットでトレーニングされた。
最高のパフォーマンスモデルはahotrod/electra_large_discriminator_squad2_512で、すべてのデータセットで43\%の精度が得られた。
我々は,すべてのモデルの計算時間は,文脈長とモデルサイズに依存することを観察した。
モデルの性能は通常、回答の長さが増加するにつれて低下する。
さらに、モデルの性能はコンテキストの複雑さに依存する。
また、遺伝的アルゴリズムを用いて、他のモデルからの応答を統合することで全体的な精度を向上した。
ahotrod/electra_large_discriminator_squad2_512 は、bioasq10b-factoid (65.92\%)、biomedical\_cpgQA (96.45\%)、QuAC (11.13\%)、Qops Answer Dataset (41.6\%) の最良の結果を生み出した。
Bert-large-uncased-whole-word-masking-finetuned-squadはIELTSデータセットで82\%の精度を達成した。
関連論文リスト
- HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。
MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか?
最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:59:05Z) - Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。
審査員モデルの応答を正確に評価するために、外部ツールが導入される。
合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文 参考訳(メタデータ) (2025-04-27T15:21:59Z) - Tabular Data Generation Models: An In-Depth Survey and Performance Benchmarks with Extensive Tuning [2.855894241049707]
16個のデータセットに対する広範囲なベンチマークにより,データセット固有のチューニングが表型データ生成のための最新の5つのモデルファミリに与える影響について検討した。
我々のベンチマークは、ほとんどのモデルにおいて、大規模データセット固有のチューニングが元の構成よりも大幅に性能を向上することを示した。
論文 参考訳(メタデータ) (2024-06-18T07:27:38Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - Knowledge is a Region in Weight Space for Fine-tuned Language Models [48.589822853418404]
異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に相互に相互に関連しているかを検討する。
同じデータセットで微調整された言語モデルが重み空間で厳密なクラスタを形成し、同じタスクから異なるデータセットで微調整されたモデルがより緩いクラスタを形成することを示す。
論文 参考訳(メタデータ) (2023-02-09T18:59:18Z) - Maximizing Use-Case Specificity through Precision Model Tuning [0.0]
バイオメディカル情報検索における4つのトランスフォーマーベース言語モデルの性能の詳細な分析を行う。
この結果から,10Bパラメータとドメイン固有のデータセットを微調整した小さなモデルでは,高い特定の質問に対して,より大きな言語モデルよりも優れる傾向が示唆された。
論文 参考訳(メタデータ) (2022-12-29T07:50:14Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。