論文の概要: A Controlled Synthetic Benchmark for Educational Aspect-Based Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2605.25502v1
- Date: Mon, 25 May 2026 07:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.426948
- Title: A Controlled Synthetic Benchmark for Educational Aspect-Based Sentiment Analysis
- Title(参考訳): 教育的アスペクトに基づく感性分析のための制御された合成ベンチマーク
- Authors: Yehudit Aperstein, Alexander Apartsin,
- Abstract要約: 本研究は,1万の総合的な授業レビューから構築されたABSAの教育的評価基準について紹介する。
最強の未調整モデルであるBERTは0.2760マイクロF1に達する。
Herathらによる2,829名の学生フィードバックレビューに対する保守的な外部評価では、9アスペクト重なりのBERTでは0.4593のマイクロF1が得られる。
- 参考スコア(独自算出の注目度): 47.027290803102666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Educational aspect-based sentiment analysis (ABSA) can support course improvement, but public aspect-labeled student feedback remains scarce because educational reviews are private, institution-specific, and expensive to annotate. This study introduces a controlled synthetic benchmark for educational ABSA built from 10,000 synthetic course reviews with explicit train-validation-test splits and a 20-aspect pedagogical schema spanning instructional quality, assessment and course management, learning demand, learning environment, and engagement. The corpus is generated with sampled target labels, sampled nuance attributes, and a realism-tuned prompt refined through a three-cycle judge-editor procedure. On the resulting benchmark, local baselines with TF-IDF, two-step transformers, and joint encoders show that the task is nontrivial; the strongest untuned model, BERT, reaches a held-out detection micro-F1 of 0.2760, while a modest lower-rate BERT schedule improves this to 0.2930. Full-test GPT-based inference with gpt-5.2 reaches 0.2519 micro-F1 in zero-shot mode and 0.2501 with retrieval-based few-shot prompting, placing batch inference above the classical baseline and close to the compact joint encoders. A conservative external evaluation on 2,829 mapped student-feedback reviews from Herath et al. yields a micro-F1 of 0.4593 for BERT on a 9-aspect overlap, indicating partial synthetic-to-real transfer. Realism and faithfulness analyses are reported as generator diagnostics that clarify how the benchmark was stabilized and where label noise remains. The study therefore contributes a synthetic educational ABSA corpus, a documented generation procedure, and a reproducible benchmark setting for a domain in which public labeled data remain difficult to obtain.
- Abstract(参考訳): 教育的側面に基づく感情分析(ABSA)は、授業改善を支援することができるが、教育的レビューは私的であり、制度的であり、注釈をつけるのに費用がかかるため、公的な側面ラベルの学生のフィードバックは乏しい。
本研究は,1万の総合的なコースレビューと,授業の質,評価とコース管理,学習要求,学習環境,エンゲージメントにまたがる20項目の教育用スキーマから構築した,教育用ABSAの総合的ベンチマークについて紹介する。
コーパスは、サンプリングされたターゲットラベル、サンプリングされたニュアンス属性、および3サイクルの審査員手順で精製されたリアリズム調整プロンプトで生成される。
その結果、TF-IDF、2ステップトランスフォーマー、ジョイントエンコーダによる局所ベースラインは、このタスクが非自明であることを示し、最強の未調整モデルBERTは0.2760マイクロF1に達し、低レートBERTスケジュールは0.2930に改善した。
gpt-5.2の完全なGPTベースの推論はゼロショットモードで0.2519マイクロF1、検索ベースで少数ショットプロンプトで0.2501に達し、古典的なベースラインの上にバッチ推論を配置し、コンパクトなジョイントエンコーダに近い。
Herathらによる2,829の学生フィードバックレビューに対する保守的な外部評価では、BERTのマイクロF1が9アスペクト重なり、部分的な合成から現実への移動を示す。
リアリズムと忠実度分析は、ベンチマークがどのように安定し、ラベルノイズが残るかを明らかにするジェネレータ診断として報告される。
そこで本研究では,公開ラベル付きデータの取得が困難である領域に対して,ABSAコーパス,文書生成手順,再現可能なベンチマーク設定をコントリビュートする。
関連論文リスト
- Verification and Identification in ECG biometric on large-scale [0.0]
本研究は心電図(ECG)バイオメトリックスを大規模に研究する。
我々は、運用メトリクスとプロトコルによる大規模評価の不足という、文献における重要なギャップに対処する。
論文 参考訳(メタデータ) (2026-02-02T20:30:35Z) - Automatic Essay Scoring and Feedback Generation in Basque Language Learning [4.218073067465283]
本稿では,CEFR C1の習熟度を目標とした,AES(Automatic Essay Scoring)とフィードバック生成のための最初の公開データセットを紹介する。
データセットは、HABEから3,200のエッセイで構成され、それぞれ専門家評価者によって注釈付けされ、正確さ、豊かさ、一貫性、凝集度、タスクアライメントを詳細にフィードバックとエラーの例で表現する。
RoBERTa-EusCrawlやLatxa 8B/70Bといったオープンソースモデルを、スコアリングと説明生成の両方のために微調整します。
論文 参考訳(メタデータ) (2025-12-09T15:28:35Z) - Evaluating the Ability of Large Language Models to Identify Adherence to CONSORT Reporting Guidelines in Randomized Controlled Trials: A Methodological Evaluation Study [7.142913983218931]
本研究は,現代LPMの精度と信頼性を評価することを目的とした。
各種医療専門分野にまたがる150個のRCTの黄金標準データセットを構築した。
トップパフォーマンスモデルであるGemini-2.5-FlashとDeepSeek-R1は、それぞれ0.280と0.282のコーエンのカッパ係数の0.634とほぼ同じマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2025-11-17T08:05:15Z) - Why Registration Quality Matters: Enhancing sCT Synthesis with IMPACT-Based Registration [1.2560645967579729]
我々のモデルは、ResNet-34エンコーダを備えた2.5D U-Net++であり、解剖学的領域間で共同で訓練され、各領域ごとに微調整されている。
ローカルテストセットでは、IMPACTベースの登録は相互情報ベースの登録よりも正確で解剖学的に整合性がある。
論文 参考訳(メタデータ) (2025-10-24T11:40:21Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Quantifying Holistic Review: A Multi-Modal Approach to College Admissions Prediction [1.9594639581421427]
Comprehensive Applicant Profile Score (CAPS) は、総合的な大学入学評価を定量的にモデル化し解釈するための新しいフレームワークである。
CAPSは応募者のプロフィールを3つの解釈可能な要素に分解する。
論文 参考訳(メタデータ) (2025-07-12T16:58:03Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Provable Guarantees for Self-Supervised Deep Learning with Spectral
Contrastive Loss [72.62029620566925]
自己教師型学習の最近の研究は、対照的な学習パラダイムを頼りに、最先端の技術の進歩を遂げている。
我々の研究は、正の対の条件的独立性を仮定することなく、対照的な学習を分析する。
本稿では,人口増分グラフ上でスペクトル分解を行う損失を提案し,コントラスト学習目的として簡潔に記述することができる。
論文 参考訳(メタデータ) (2021-06-08T07:41:02Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。