論文の概要: Evaluating LLMs with Multiple Problems at once: A New Paradigm for Probing LLM Capabilities
- arxiv url: http://arxiv.org/abs/2406.10786v1
- Date: Sun, 16 Jun 2024 02:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:51:13.784904
- Title: Evaluating LLMs with Multiple Problems at once: A New Paradigm for Probing LLM Capabilities
- Title(参考訳): 一度に複数の問題を持つLLMの評価:LLM能力の探索のための新しいパラダイム
- Authors: Zhengxiang Wang, Jordan Kodner, Owen Rambow,
- Abstract要約: LLMの多重問題処理能力を研究するための追加手法として,マルチプロブレム評価を提案する。
LLMは、一般に(ほぼ)シングルプロブレムタスクと同様に、マルチプロブレムタスクでも、有能なマルチプロブレム解決器であることがわかった。
また, LLMは, 様々な評価条件下でのマルチプロブレムタスクよりも, 2つの指標選択タスクにおいて有意に性能が低下していることが示唆された。
- 参考スコア(独自算出の注目度): 9.173325772800341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current LLM evaluation predominantly performs evaluation with prompts comprising single problems. We propose multi-problem evaluation as an additional approach to study the multiple problem handling capabilities of LLMs. We present a systematic study in this regard by comprehensively examining 7 LLMs on 4 related types of tasks constructed from 6 classification benchmarks. The 4 task types include traditional single-problem tasks, homogeneous multi-problem tasks, and two index selection tasks that embed the multi-problem tasks. We find that LLMs are competent multi-problem solvers: they generally perform (nearly) as well on multi-problem tasks as on single-problem tasks. Furthermore, contrary to common expectation, they often do not suffer from a positional bias with long inputs. This makes multi-problem prompting a simple and cost-efficient prompting method of practical significance. However, our results also strongly indicate that LLMs lack true understanding: they perform significantly worse in the two index selection tasks than in the multi-problem task under various evaluation settings, although they can indeed do index selection in general.
- Abstract(参考訳): 現在のLCM評価は、主に単一問題からなるプロンプトを用いて評価を行う。
LLMの多重問題処理能力を研究するための追加手法として,マルチプロブレム評価を提案する。
本研究では,6つの分類ベンチマークから構築した4種類のタスクに対して,7つのLLMを包括的に検討する。
4つのタスクタイプには、従来のシングルプロブレムタスク、同質なマルチプロブレムタスク、マルチプロブレムタスクを組み込んだ2つのインデックス選択タスクが含まれる。
LLMは、一般に(ほぼ)シングルプロブレムタスクと同様に、マルチプロブレムタスクでも、有能なマルチプロブレム解決器であることがわかった。
さらに、一般的な期待に反して、長い入力を伴う位置バイアスに悩まされないことが多い。
これにより、マルチプロブレムは、実用的重要性の単純で費用効率のよいプロブレム法を推進できる。
しかし,本研究の結果から LLM は, 様々な評価条件下でのマルチプロブレムタスクよりも, 2 つの指標選択タスクにおいて有意に劣るが, 一般にはインデックス選択を行うことができる。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Can LLMs Reason in the Wild with Programs? [20.47557047823847]
本研究では, LLM が未知型推論問題の解法を課題とする, 野生における推論の課題を紹介する。
我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成する。
実験では、既存のLLMは曖昧で混在したスコープの問題で著しく失敗する。
論文 参考訳(メタデータ) (2024-06-19T18:26:19Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - CoMM: Collaborative Multi-Agent, Multi-Reasoning-Path Prompting for Complex Problem Solving [9.446546965008249]
協調型マルチエージェント・マルチレゾニングパス(CoMM)プロンプトフレームワークを提案する。
具体的には、LLMが問題解決チームで異なる役割を演じるように促し、異なるロールプレイエージェントが目的のタスクを協調的に解決するように促します。
2つの大学レベルの科学問題に対する提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-04-26T23:29:12Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context
Evaluation Benchmark for Large Language Models [61.06694491246026]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z) - Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。