論文の概要: Evaluating the Process Modeling Abilities of Large Language Models -- Preliminary Foundations and Results
- arxiv url: http://arxiv.org/abs/2503.13520v1
- Date: Fri, 14 Mar 2025 18:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:31.568148
- Title: Evaluating the Process Modeling Abilities of Large Language Models -- Preliminary Foundations and Results
- Title(参考訳): 大規模言語モデルのプロセスモデリング能力の評価 -基礎と結果-
- Authors: Peter Fettke, Constantin Houy,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理に革命をもたらした。
LLMがどの程度優れたプロセスモデルを生成するか、現在議論中である。
我々はこれらの課題を詳細に議論し、これらの課題に科学的に取り組むための将来の実験について議論する。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License:
- Abstract: Large language models (LLM) have revolutionized the processing of natural language. Although first benchmarks of the process modeling abilities of LLM are promising, it is currently under debate to what extent an LLM can generate good process models. In this contribution, we argue that the evaluation of the process modeling abilities of LLM is far from being trivial. Hence, available evaluation results must be taken carefully. For example, even in a simple scenario, not only the quality of a model should be taken into account, but also the costs and time needed for generation. Thus, an LLM does not generate one optimal solution, but a set of Pareto-optimal variants. Moreover, there are several further challenges which have to be taken into account, e.g. conceptualization of quality, validation of results, generalizability, and data leakage. We discuss these challenges in detail and discuss future experiments to tackle these challenges scientifically.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらした。
LLMのプロセスモデリング能力に関する最初のベンチマークは有望であるが、LLMがどの程度優れたプロセスモデルを生成するかについては現在議論中である。
本論文では,LLMのプロセスモデリング能力の評価は自明なものではないと論じる。
したがって、利用可能な評価結果を慎重に評価する必要がある。
例えば、単純なシナリオであっても、モデルの品質だけでなく、生成に必要なコストや時間も考慮すべきです。
したがって、LLMは最適解を1つも生成せず、パレート・最適変種(英語版)の集合を生成する。
さらに、品質の概念化、結果の検証、一般化可能性、データ漏洩など、考慮すべき課題もいくつかある。
我々はこれらの課題を詳細に議論し、これらの課題に科学的に取り組むための将来の実験について議論する。
関連論文リスト
- Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Zero-shot LLM-guided Counterfactual Generation: A Case Study on NLP Model Evaluation [15.254775341371364]
ゼロショット対実生成に大規模言語モデルを活用する可能性について検討する。
我々は,この生成を容易にするための構造化パイプラインを提案し,近年のLLMにおける命令追従とテキスト理解の能力を効果的に活用できるという仮説を立てた。
論文 参考訳(メタデータ) (2024-05-08T03:57:45Z) - Enhancing Large Language Model Performance To Answer Questions and
Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。
それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。
これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文 参考訳(メタデータ) (2024-01-27T00:18:07Z) - FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in
LLMs [6.689848416609951]
大規模言語モデル(LLM)における未学習と公平性の相互作用について検討する。
我々は、SISAとして知られる人気のある非学習フレームワークに焦点を当て、非結合シャードで訓練されたモデルのアンサンブルを作成する。
SISAによるアンサンブルモデルに対する後処理バイアス軽減手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:44:47Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。