論文の概要: NLD-LLM: A systematic framework for evaluating small language transformer models on natural language description
- arxiv url: http://arxiv.org/abs/2510.05139v1
- Date: Wed, 01 Oct 2025 19:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.844947
- Title: NLD-LLM: A systematic framework for evaluating small language transformer models on natural language description
- Title(参考訳): NLD-LLM:自然言語記述に基づく小型言語トランスフォーマーモデル評価のための体系的フレームワーク
- Authors: Hamed Jelodar, Mohammad Meymani, Parisa Hamedi, Tochukwu Emmanuel Nwankwo, Samita Bai, Roozbeh Razavi-Far, Ali A. Ghorbani,
- Abstract要約: 自然言語記述(英: Natural Language Description、NLD)は、自然言語入力から構造化された意味のある出力を生成するモデルを必要とする自然言語処理(NLP)タスクである。
NLD-LLMは、言語モデルの性能を評価し、正確かつ簡潔なソースコード記述を生成するための体系的なNLPフレームワークである。
- 参考スコア(独自算出の注目度): 4.240884806677703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Description (NLD) is a Natural Language Processing (NLP) task that requires models to generate structured and meaningful outputs from natural language inputs. In this work, we propose NLD-LLM, a systematic NLP framework to evaluate the performance of language models to generate accurate and concise source code descriptions. This framework incorporates a diverse set of transformer models, including Qwen, DeepSeek, Phi, LLaMA, and Mistral, spanning various sizes, architectures, and training approaches. Central to NLD-LLM is a comprehensive prompt design strategy that includes standardized formatting, clear task guidance, and NLD prompting, ensuring fair and consistent evaluation. Additionally, we apply an iterative refinement process to improve output's quality and assess the model's adaptability. Using semantic and structural metrics, our analysis demonstrates that prompt engineering significantly impacts the effectiveness of the model such that smaller models often performing competitively when supported by well-crafted prompts.
- Abstract(参考訳): 自然言語記述(英: Natural Language Description、NLD)は、自然言語入力から構造化された意味のある出力を生成するモデルを必要とする自然言語処理(NLP)タスクである。
本研究では,言語モデルの性能を評価するためのNLD-LLMを提案する。
このフレームワークには、Qwen、DeepSeek、Phi、LLaMA、Mistralなど、さまざまなサイズ、アーキテクチャ、トレーニングアプローチを含むさまざまなトランスフォーマーモデルが含まれている。
NLD-LLMの中心は、標準化されたフォーマット、明確なタスクガイダンス、NLDプロンプト、公平で一貫した評価を含む包括的なプロンプト設計戦略である。
さらに、出力の品質を向上し、モデルの適応性を評価するために反復的な改善プロセスを適用する。
セマンティックな指標と構造的な指標を用いて分析したところ、プロンプトエンジニアリングがモデルの有効性に大きく影響していることが示され、より小さなモデルでは、よく製作されたプロンプトによって支援された場合、しばしば競争的に機能することが示された。
関連論文リスト
- Do We Really Need GNNs with Explicit Structural Modeling? MLPs Suffice for Language Model Representations [50.45261187796993]
グラフニューラルネットワーク(GNN)は構造情報を十分に活用できないが、MLP(Multi-Layer Perceptrons)は構造認識タスクにおいて驚くべき能力を示す。
本稿では,情報理論の観点から総合的な探索フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-26T18:10:28Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Leveraging Parameter Efficient Training Methods for Low Resource Text Classification: A Case Study in Marathi [0.4194295877935868]
Indic low-resource language Marathi のPEFT法について検討する。
これらのアプローチは、MahaSent、MahaHate、MahaNewsといった著名なテキスト分類データセットに基づいて評価される。
これらの手法は完全微調整と競合し,精度を損なうことなく使用できることを示す。
論文 参考訳(メタデータ) (2024-08-06T13:16:16Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks [30.54635848057259]
本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。
対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。
本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
論文 参考訳(メタデータ) (2024-05-16T16:56:54Z) - Zero-shot LLM-guided Counterfactual Generation: A Case Study on NLP Model Evaluation [15.254775341371364]
ゼロショット対実生成に大規模言語モデルを活用する可能性について検討する。
我々は,この生成を容易にするための構造化パイプラインを提案し,近年のLLMにおける命令追従とテキスト理解の能力を効果的に活用できるという仮説を立てた。
論文 参考訳(メタデータ) (2024-05-08T03:57:45Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。