論文の概要: Handling Symbolic Language in Student Texts: A Comparative Study of NLP Embedding Models
- arxiv url: http://arxiv.org/abs/2505.17950v1
- Date: Fri, 23 May 2025 14:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.147048
- Title: Handling Symbolic Language in Student Texts: A Comparative Study of NLP Embedding Models
- Title(参考訳): 学生テキストにおける記号言語処理:NLP埋め込みモデルの比較検討
- Authors: Tom Bleckmann, Paul Tschisgale,
- Abstract要約: 本研究は, 現代埋め込みモデルが, 科学関連記号表現の処理・解釈能力にどう影響するかを考察する。
以上の結果から,OpenAIのGPT-text-embedding-3-largeは,他のすべての検査モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Natural Language Processing (NLP) have facilitated the analysis of student-generated language products in learning analytics (LA), particularly through the use of NLP embedding models. Yet when it comes to science-related language, symbolic expressions such as equations and formulas introduce challenges that current embedding models struggle to address. Existing studies and applications often either overlook these challenges or remove symbolic expressions altogether, potentially leading to biased findings and diminished performance of LA applications. This study therefore explores how contemporary embedding models differ in their capability to process and interpret science-related symbolic expressions. To this end, various embedding models are evaluated using physics-specific symbolic expressions drawn from authentic student responses, with performance assessed via two approaches: similarity-based analyses and integration into a machine learning pipeline. Our findings reveal significant differences in model performance, with OpenAI's GPT-text-embedding-3-large outperforming all other examined models, though its advantage over other models was moderate rather than decisive. Beyond performance, additional factors such as cost, regulatory compliance, and model transparency are discussed as key considerations for model selection. Overall, this study underscores the importance for LA researchers and practitioners of carefully selecting NLP embedding models when working with science-related language products that include symbolic expressions.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、学習分析(LA)において、特にNLP埋め込みモデルを用いて、学生が生成する言語製品の分析を促進する。
しかし、科学関連の言語に関して言えば、方程式や公式のような象徴的な表現は、現在の埋め込みモデルが解決に苦しむ課題をもたらす。
既存の研究や応用はしばしばこれらの課題を見落としているか、象徴的な表現を完全に排除している。
そこで本研究では,同時代の埋め込みモデルが,科学関係の記号表現を処理・解釈する能力との違いについて考察する。
この目的のために、様々な埋め込みモデルを、真の学生反応から引き出された物理固有の記号表現を用いて評価し、類似性に基づく分析と機械学習パイプラインへの統合という2つのアプローチによる性能評価を行う。
以上の結果から,OpenAIのGPT-text-embedding-3-largeは,他のすべての検査モデルよりも優れているが,他のモデルの優位性は決定的ではない。
パフォーマンス以外にも、コスト、規制コンプライアンス、モデルの透明性といった追加の要因が、モデル選択の主要な考慮事項として議論されている。
本研究は, 記号表現を含む科学関連言語製品を扱う上で, NLP埋め込みモデルを慎重に選択する上で, LA研究者や実践者にとって重要であることを示すものである。
関連論文リスト
- Modeling cognitive processes of natural reading with transformer-based Language Models [2.048226951354646]
これまでの研究では、NグラムやLSTMネットワークのようなモデルが、眼球運動の振る舞いを説明する際の予測可能性の影響を部分的に説明できることが示されている。
本研究では, トランスフォーマーモデル(GPT2, LLaMA-7B, LLaMA2-7B)を評価し, この関係性について検討した。
以上の結果から,これらの構造は,リオ植物学のスペイン語読解者から記録されたガゼ期間の変動を説明する上で,先行モデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-05-16T17:47:58Z) - Mathematical Derivation Graphs: A Task for Summarizing Equation Dependencies in STEM Manuscripts [1.1961645395911131]
本稿では,STEM論文における数学的表現間の依存関係関係の理解に向けた最初のステップについて述べる。
我々のデータセットは、arXivコーパスのランダムサンプリングから得られたものであり、107個のSTEM原稿の解析を含んでいる。
分析モデルとNLPモデルを総合的に評価し,各項目の導出関係を同定・抽出する能力を評価する。
論文 参考訳(メタデータ) (2024-10-26T16:52:22Z) - Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - Investigating the Timescales of Language Processing with EEG and Language Models [0.0]
本研究では,事前学習した言語モデルと脳波データからの単語表現のアライメントを検討することで,言語処理の時間的ダイナミクスについて検討する。
テンポラル・レスポンス・ファンクション(TRF)モデルを用いて、神経活動が異なる層にまたがるモデル表現とどのように対応するかを検討する。
分析の結果,異なる層からのTRFのパターンが明らかとなり,語彙的および構成的処理への様々な貢献が明らかになった。
論文 参考訳(メタデータ) (2024-06-28T12:49:27Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Computational Models to Study Language Processing in the Human Brain: A Survey [47.81066391664416]
本稿では,脳研究における計算モデルの利用の取り組みを概観し,新たな傾向を浮き彫りにしている。
我々の分析によると、すべてのデータセットで他のモデルよりも優れているモデルはない。
論文 参考訳(メタデータ) (2024-03-20T08:01:22Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Algebraic Learning: Towards Interpretable Information Modeling [0.0]
この論文は、一般的な情報モデリングにおける解釈可能性の問題に対処し、問題を2つの範囲から緩和する試みである。
まず、問題指向の視点を用いて、興味深い数学的性質が自然に現れるモデリング実践に知識を取り入れる。
第二に、訓練されたモデルを考えると、基礎となるシステムに関するさらなる洞察を抽出するために様々な方法を適用することができる。
論文 参考訳(メタデータ) (2022-03-13T15:53:39Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Comparative Study of Language Models on Cross-Domain Data with Model
Agnostic Explainability [0.0]
この研究は、最先端の言語モデルであるBERT、ELECTRAとその派生品であるRoBERTa、ALBERT、DistilBERTを比較した。
実験結果は、2013年の格付けタスクとフィナンシャル・フレーズバンクの感情検出タスクの69%、そして88.2%の精度で、新たな最先端の「評価タスク」を確立した。
論文 参考訳(メタデータ) (2020-09-09T04:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。