論文の概要: Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles
- arxiv url: http://arxiv.org/abs/2410.06733v1
- Date: Wed, 9 Oct 2024 10:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 03:50:25.999389
- Title: Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles
- Title(参考訳): 弱Eval-Strong:LLMの側方思考の評価と緩和
- Authors: Qi Chen, Bowen Zhang, Gang Wang, Qi Wu,
- Abstract要約: SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。
このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。
実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
- 参考スコア(独自算出の注目度): 20.18736445118689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While advancements in NLP have significantly improved the performance of Large Language Models (LLMs) on tasks requiring vertical thinking, their lateral thinking capabilities remain under-explored and challenging to measure due to the complexity of assessing creative thought processes and the scarcity of relevant data. To address these challenges, we introduce SPLAT, a benchmark leveraging Situation Puzzles to evaluate and elicit LAteral Thinking of LLMs. This benchmark, containing 975 graded situation puzzles across three difficulty levels, employs a new multi-turn player-judge framework instead of the traditional model-based evaluation, which often necessitates a stronger evaluation model. This framework simulates an interactive game where the model (player) asks the evaluation model (judge) questions about an incomplete story to infer the full scenario. The judge answers based on a detailed reference scenario or evaluates if the player's predictions align with the reference one. This approach lessens dependence on more robust evaluation models, enabling the assessment of state-of-the-art LLMs. The experiments demonstrate that a robust evaluation model, such as WizardLM-2, closely matches human judgements in both intermediate question-answering and final scenario accuracy, achieving over 80% agreement-similar to the agreement levels among humans. Furthermore, applying data and reasoning processes from our benchmark to other lateral thinking-related benchmarks, e.g., RiddleSense and BrainTeaser, leads to performance enhancements. This suggests that our benchmark effectively evaluates and elicits the lateral thinking abilities of LLMs. Code is available at: https://github.com/chenqi008/LateralThinking.
- Abstract(参考訳): NLPの進歩は、垂直思考を必要とするタスクにおけるLarge Language Models(LLM)の性能を大幅に向上させたが、創造的思考プロセスの評価の複雑さと関連するデータの不足により、その側方思考能力は未熟であり、測定が難しいままである。
これらの課題に対処するため,LLM の LAteral Thinking を評価・活用するベンチマークである SPLAT を紹介した。
このベンチマークは、3つの難易度レベルにわたる975グレードのシチュエーションパズルを含むが、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用しており、しばしばより強力な評価モデルを必要とする。
このフレームワークは、モデル(プレイヤ)が不完全なストーリーについて評価モデル(ジャッジ)に質問し、完全なシナリオを推測するインタラクティブゲームをシミュレートする。
審査員は、詳細な参照シナリオに基づいて回答するか、またはプレイヤーの予測が参照シナリオと一致しているかを評価する。
このアプローチは、より堅牢な評価モデルへの依存を減らし、最先端のLCMの評価を可能にする。
実験により,WizardLM-2のようなロバストな評価モデルは,中間質問回答と最終シナリオの精度の両方において,人間の判断と密に一致し,人間の合意レベルと80%以上を達成できることを示した。
さらに、我々のベンチマークからRiddleSenseやBrainTeaserといった横方向の思考関連ベンチマークにデータや推論プロセスを適用すると、パフォーマンスが向上します。
このことから,LLMの側方思考能力を評価・評価することが示唆された。
コードは、https://github.com/chenqi008/LateralThinking.comで入手できる。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - CheckEval: Robust Evaluation Framework using Large Language Model via Checklist [6.713203569074019]
大規模言語モデルを用いた新しい評価フレームワークであるCheckEvalを紹介する。
CheckEvalは、現在の評価方法における曖昧さと一貫性の課題に対処する。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - The Generative AI Paradox on Evaluation: What It Can Solve, It May Not
Evaluate [17.77014177096838]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。
質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文 参考訳(メタデータ) (2024-02-09T06:16:08Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。