論文の概要: Examining the Robustness of Large Language Models across Language Complexity
- arxiv url: http://arxiv.org/abs/2501.18738v1
- Date: Thu, 30 Jan 2025 20:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:02:20.763036
- Title: Examining the Robustness of Large Language Models across Language Complexity
- Title(参考訳): 言語複雑度における大規模言語モデルのロバスト性の検討
- Authors: Jiayi Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、学生が学習を理解し評価するために生成したテキスト成果物を分析する。
本研究では,数学の問題解決において,学生の自己制御学習(SRL)を検出するLLMベースの学生モデルのロバスト性について検討した。
- 参考スコア(独自算出の注目度): 19.184633713069353
- License:
- Abstract: With the advancement of large language models (LLMs), an increasing number of student models have leveraged LLMs to analyze textual artifacts generated by students to understand and evaluate their learning. These student models typically employ pre-trained LLMs to vectorize text inputs into embeddings and then use the embeddings to train models to detect the presence or absence of a construct of interest. However, how reliable and robust are these models at processing language with different levels of complexity? In the context of learning where students may have different language backgrounds with various levels of writing skills, it is critical to examine the robustness of such models to ensure that these models work equally well for text with varying levels of language complexity. Coincidentally, a few (but limited) research studies show that the use of language can indeed impact the performance of LLMs. As such, in the current study, we examined the robustness of several LLM-based student models that detect student self-regulated learning (SRL) in math problem-solving. Specifically, we compared how the performance of these models vary using texts with high and low lexical, syntactic, and semantic complexity measured by three linguistic measures.
- Abstract(参考訳): 大規模言語モデル(LLMs)の進歩に伴い、学生が学習を理解し、評価するために生成したテキストアーティファクトを分析するためにLLMを利用する学生が増えてきている。
これらの学生モデルは、通常、事前訓練されたLLMを使用して、テキスト入力を埋め込みにベクトル化し、埋め込みを使用して、モデルのトレーニングを行い、興味のある構成物の有無を検出する。
しかし、これらのモデルは、複雑さのレベルが異なる処理言語において、どれほど信頼性が高く堅牢か?
様々なレベルの記述スキルを持つ異なる言語背景を持つ学習の文脈では、これらのモデルが言語複雑性のレベルが異なるテキストに対して等しく動作することを保証するために、そのようなモデルの堅牢性を検討することが重要である。
偶然にも、いくつかの(しかし限定的な)研究は、言語の使用が実際にLLMのパフォーマンスに影響を及ぼすことを示した。
そこで本研究では,数学の問題解決において,学生の自己統制学習(SRL)を検出する複数のLLMベースの学生モデルの堅牢性について検討した。
具体的には,3つの言語尺度によって測定された語彙,構文,意味的複雑さのテキストを用いて,これらのモデルの性能を比較検討した。
関連論文リスト
- Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs [8.146860674148044]
我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。
決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。
3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。
我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文 参考訳(メタデータ) (2024-06-21T20:02:22Z) - Large Language Models can Contrastively Refine their Generation for Better Sentence Representation Learning [57.74233319453229]
大規模言語モデル(LLM)は画期的な技術として登場し、それらの非並列テキスト生成能力は、基本的な文表現学習タスクへの関心を喚起している。
コーパスを生成するためにLLMの処理を分解するマルチレベルコントラスト文表現学習フレームワークであるMultiCSRを提案する。
実験の結果,MultiCSRはより高度なLCMをChatGPTの性能を超えつつ,ChatGPTに適用することで最先端の成果を得られることがわかった。
論文 参考訳(メタデータ) (2023-10-17T03:21:43Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - From Text to Source: Results in Detecting Large Language Model-Generated Content [17.306542392779445]
大きな言語モデル(LLM)は、人間に似たテキストを生成する能力によって祝われる。
本稿では,LLM生成テキストと人文テキストを区別するために訓練された分類器が,それ以上の訓練を行なわずに目標LLMからテキストを検出することができるかどうかを評価することで,Cross-Model Detectionについて検討する。
この研究では、量化と透かし検出に加えて、ソースモデル識別、モデルファミリー、モデルサイズ分類を含むモデル属性についても検討している。
論文 参考訳(メタデータ) (2023-09-23T09:51:37Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。