論文の概要: Handling Symbolic Language in Student Texts: A Comparative Study of NLP Embedding Models
- arxiv url: http://arxiv.org/abs/2505.17950v1
- Date: Fri, 23 May 2025 14:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.147048
- Title: Handling Symbolic Language in Student Texts: A Comparative Study of NLP Embedding Models
- Title(参考訳): 学生テキストにおける記号言語処理:NLP埋め込みモデルの比較検討
- Authors: Tom Bleckmann, Paul Tschisgale,
- Abstract要約: 本研究は, 現代埋め込みモデルが, 科学関連記号表現の処理・解釈能力にどう影響するかを考察する。
以上の結果から,OpenAIのGPT-text-embedding-3-largeは,他のすべての検査モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Natural Language Processing (NLP) have facilitated the analysis of student-generated language products in learning analytics (LA), particularly through the use of NLP embedding models. Yet when it comes to science-related language, symbolic expressions such as equations and formulas introduce challenges that current embedding models struggle to address. Existing studies and applications often either overlook these challenges or remove symbolic expressions altogether, potentially leading to biased findings and diminished performance of LA applications. This study therefore explores how contemporary embedding models differ in their capability to process and interpret science-related symbolic expressions. To this end, various embedding models are evaluated using physics-specific symbolic expressions drawn from authentic student responses, with performance assessed via two approaches: similarity-based analyses and integration into a machine learning pipeline. Our findings reveal significant differences in model performance, with OpenAI's GPT-text-embedding-3-large outperforming all other examined models, though its advantage over other models was moderate rather than decisive. Beyond performance, additional factors such as cost, regulatory compliance, and model transparency are discussed as key considerations for model selection. Overall, this study underscores the importance for LA researchers and practitioners of carefully selecting NLP embedding models when working with science-related language products that include symbolic expressions.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、学習分析(LA)において、特にNLP埋め込みモデルを用いて、学生が生成する言語製品の分析を促進する。
しかし、科学関連の言語に関して言えば、方程式や公式のような象徴的な表現は、現在の埋め込みモデルが解決に苦しむ課題をもたらす。
既存の研究や応用はしばしばこれらの課題を見落としているか、象徴的な表現を完全に排除している。
そこで本研究では,同時代の埋め込みモデルが,科学関係の記号表現を処理・解釈する能力との違いについて考察する。
この目的のために、様々な埋め込みモデルを、真の学生反応から引き出された物理固有の記号表現を用いて評価し、類似性に基づく分析と機械学習パイプラインへの統合という2つのアプローチによる性能評価を行う。
以上の結果から,OpenAIのGPT-text-embedding-3-largeは,他のすべての検査モデルよりも優れているが,他のモデルの優位性は決定的ではない。
パフォーマンス以外にも、コスト、規制コンプライアンス、モデルの透明性といった追加の要因が、モデル選択の主要な考慮事項として議論されている。
本研究は, 記号表現を含む科学関連言語製品を扱う上で, NLP埋め込みモデルを慎重に選択する上で, LA研究者や実践者にとって重要であることを示すものである。
関連論文リスト
- Modeling cognitive processes of natural reading with transformer-based Language Models [2.048226951354646]
これまでの研究では、NグラムやLSTMネットワークのようなモデルが、眼球運動の振る舞いを説明する際の予測可能性の影響を部分的に説明できることが示されている。
本研究では, トランスフォーマーモデル(GPT2, LLaMA-7B, LLaMA2-7B)を評価し, この関係性について検討した。
以上の結果から,これらの構造は,リオ植物学のスペイン語読解者から記録されたガゼ期間の変動を説明する上で,先行モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-05-16T17:47:58Z) - Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - Investigating the Timescales of Language Processing with EEG and Language Models [0.0]
本研究では,事前学習した言語モデルと脳波データからの単語表現のアライメントを検討することで,言語処理の時間的ダイナミクスについて検討する。
テンポラル・レスポンス・ファンクション(TRF)モデルを用いて、神経活動が異なる層にまたがるモデル表現とどのように対応するかを検討する。
分析の結果,異なる層からのTRFのパターンが明らかとなり,語彙的および構成的処理への様々な貢献が明らかになった。
論文 参考訳(メタデータ) (2024-06-28T12:49:27Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Comparative Study of Language Models on Cross-Domain Data with Model
Agnostic Explainability [0.0]
この研究は、最先端の言語モデルであるBERT、ELECTRAとその派生品であるRoBERTa、ALBERT、DistilBERTを比較した。
実験結果は、2013年の格付けタスクとフィナンシャル・フレーズバンクの感情検出タスクの69%、そして88.2%の精度で、新たな最先端の「評価タスク」を確立した。
論文 参考訳(メタデータ) (2020-09-09T04:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。