論文の概要: Are Your LLMs Capable of Stable Reasoning?
- arxiv url: http://arxiv.org/abs/2412.13147v4
- Date: Sun, 01 Jun 2025 06:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.938748
- Title: Are Your LLMs Capable of Stable Reasoning?
- Title(参考訳): LLMは安定した推論が可能か?
- Authors: Junnan Liu, Hongwei Liu, Linchen Xiao, Ziyi Wang, Kuikun Liu, Songyang Gao, Wenwei Zhang, Songyang Zhang, Kai Chen,
- Abstract要約: G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
- 参考スコア(独自算出の注目度): 38.03049704515947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has shown remarkable progress in complex reasoning tasks. However, a significant disparity exists between benchmark performances and real-world applications. We attribute this gap primarily to current evaluation protocols and metrics, which inadequately capture the full spectrum of LLM capabilities, especially in complex reasoning tasks where both accuracy and consistency are essential. In this paper, we introduce G-Pass@$k$, a novel evaluation metric that continuously assesses model performance across multiple sampling attempts, quantifying both the model's performance potential and its stability. Through extensive experiments on various public and newly constructed benchmarks, we employ G-Pass@$k$ in conjunction with state-of-the-art large language models to provide comprehensive insights into their potential capabilities and operational consistency. Our findings reveal a significant opportunity to enhance the realistic reasoning abilities of LLMs, underscoring the necessity for more robust evaluation metrics.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、複雑な推論タスクにおいて顕著な進歩を示している。
しかし、ベンチマークパフォーマンスと実世界のアプリケーションの間には大きな相違がある。
このギャップは、特に精度と一貫性が不可欠である複雑な推論タスクにおいて、LLM能力の全スペクトルを適切に捉えていない、現在の評価プロトコルとメトリクスに起因している。
本稿では,G-Pass@$k$を導入し,複数のサンプリング試行においてモデル性能を連続的に評価し,モデルの性能ポテンシャルと安定性を定量化する手法を提案する。
G-Pass@$k$と最先端の大規模言語モデルを組み合わせて、さまざまな公開および新たに構築されたベンチマークに関する広範な実験を行い、その潜在能力と運用上の整合性に関する総合的な洞察を提供する。
以上の結果から,LCMの現実的推論能力を高めるための重要な機会が明らかとなり,より堅牢な評価指標の必要性が浮き彫りになった。
関連論文リスト
- Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - GroundCocoa: A Benchmark for Evaluating Compositional & Conditional Reasoning in Language Models [14.108788704400643]
GroundCocoa(グラウンドココア)は、これらの推論スキルをフライト予約の現実的な問題に結びつける、語彙的に多様なベンチマークである。
私たちのタスクは、詳細なユーザの好みと、複数の選択形式で提示される利用可能なフライトオプションを整合させることです。
GPT-4 Turboは, 先進的なプロンプト技術にもかかわらず精度が67%を超えなかった。
論文 参考訳(メタデータ) (2024-04-05T17:36:26Z) - Dynamic Evaluation of Large Language Models by Meta Probing Agents [44.20074234421295]
大規模言語モデル(LLM)を評価するためのメタ・プロブリング・エージェント(MPA)を提案する。
MPAはDyVal 2の重要なコンポーネントであり、DyValcitepzhu2023dyvalを自然に拡張している。
MPAは、探索および判定エージェントを設計し、元の評価問題を心理測定理論に従って新しいものに自動的に変換する。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
Models via Complexity Classes [32.154637177467684]
NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。
NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。
データポイントを毎月更新する動的更新メカニズムで設計されている。
論文 参考訳(メタデータ) (2023-12-22T18:07:44Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。