論文の概要: E-Bench: Towards Evaluating the Ease-of-Use of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10950v1
- Date: Sun, 16 Jun 2024 14:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:52:39.162928
- Title: E-Bench: Towards Evaluating the Ease-of-Use of Large Language Models
- Title(参考訳): E-Bench: 大規模言語モデルの使いやすさ評価に向けて
- Authors: Zhenyu Zhang, Bingguang Hao, Jinpeng Li, Zekai Zhang, Dongyan Zhao,
- Abstract要約: 大規模言語モデル(LLM)はプロンプトに敏感であり、別の同義語表現やタイプミスはモデルに対して予期せぬ結果をもたらす可能性がある。
我々は,LLMの使いやすさを評価し,実際の使用状況をシミュレートしたE-Benchを構築した。
- 参考スコア(独自算出の注目度): 29.763745375790933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most large language models (LLMs) are sensitive to prompts, and another synonymous expression or a typo may lead to unexpected results for the model. Composing an optimal prompt for a specific demand lacks theoretical support and relies entirely on human experimentation, which poses a considerable obstacle to popularizing generative artificial intelligence. However, there is no systematic analysis of the stability of LLMs in resisting prompt perturbations in real-world scenarios. In this work, we propose to evaluate the ease-of-use of LLMs and construct E-Bench, simulating the actual situation of human use from synonymous perturbation (including paraphrasing, simplification, and colloquialism) and typographical perturbation (such as typing). On this basis, we also discuss the combination of these two types of perturbation and analyze the main reasons for performance degradation. Experimental results indicate that with the increase of model size, although the ease-of-use are significantly improved, there is still a long way to go to build a sufficiently user-friendly model.
- Abstract(参考訳): ほとんどの大きな言語モデル(LLM)はプロンプトに敏感であり、別の同義語やタイプミスはモデルに対して予期せぬ結果をもたらす可能性がある。
特定の需要に対して最適なプロンプトを構成することは理論的支援に欠けており、人間の実験に完全に依存しているため、生成的人工知能の普及にかなりの障害が生じる。
しかし、現実のシナリオにおける急激な摂動に抵抗するLLMの安定性の体系的解析は存在しない。
本研究では, LLMの使いやすさを評価し, E-Benchを構築することを提案し, 同義語摂動(パラフレージング, 単純化, 口語主義など)とタイポグラフィ的摂動(タイピングなど)から人的使用の実態をシミュレーションした。
また, この2種類の摂動の組み合わせについて考察し, 性能劣化の主な原因を考察する。
実験の結果、モデルのサイズが大きくなるにつれて、使いやすさは大幅に改善されているものの、十分なユーザフレンドリーなモデルを構築するにはまだまだ長い道のりがあることがわかった。
関連論文リスト
- Verbalized Probabilistic Graphical Modeling with Large Language Models [8.961720262676195]
この研究は、大規模言語モデルによる学習自由ベイズ推論を促進する新しいベイズ急進的アプローチを導入している。
本研究は,AI言語理解システムの改善の可能性を示すとともに,信頼性評価とテキスト生成品質を効果的に向上させることを示唆する。
論文 参考訳(メタデータ) (2024-06-08T16:35:31Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。
モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。
これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - SSCAE -- Semantic, Syntactic, and Context-aware natural language Adversarial Examples generator [0.44998333629984877]
機械学習モデルは悪質に作られたAdversarial Examples(AEs)に脆弱である
本稿では,textbfSemantic, textbfSyntactic, textbfContext-aware natural language textbfAEs ジェネレータに対するSSCAEと呼ばれる実用的で効率的な攻撃モデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T14:45:20Z) - On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。