論文の概要: CryptoX : Compositional Reasoning Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.07813v1
- Date: Sat, 08 Feb 2025 17:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:05.305609
- Title: CryptoX : Compositional Reasoning Evaluation of Large Language Models
- Title(参考訳): CryptoX : 大規模言語モデルの合成推論評価
- Authors: Jiajun Shi, Chaoren Wei, Liqun Yang, Zekun Moore Wang, Chenghao Yang, Ge Zhang, Stephen Huang, Tao Peng, Jian Yang, Zhoufutu Wen,
- Abstract要約: 既存のベンチマークと暗号を組み合わせた評価フレームワークであるCryptoXを紹介する。
我々はCryptoBenchを用いて、広く使われているオープンソースおよびクローズドソース LLM に関する詳細な実験を行う。
コンポジション推論を独立に研究することの価値を強調し,LLMのコンポジション推論能力を高める必要性を強調した。
- 参考スコア(独自算出の注目度): 18.927129952741904
- License:
- Abstract: The compositional reasoning capacity has long been regarded as critical to the generalization and intelligence emergence of large language models LLMs. However, despite numerous reasoning-related benchmarks, the compositional reasoning capacity of LLMs is rarely studied or quantified in the existing benchmarks. In this paper, we introduce CryptoX, an evaluation framework that, for the first time, combines existing benchmarks and cryptographic, to quantify the compositional reasoning capacity of LLMs. Building upon CryptoX, we construct CryptoBench, which integrates these principles into several benchmarks for systematic evaluation. We conduct detailed experiments on widely used open-source and closed-source LLMs using CryptoBench, revealing a huge gap between open-source and closed-source LLMs. We further conduct thorough mechanical interpretability experiments to reveal the inner mechanism of LLMs' compositional reasoning, involving subproblem decomposition, subproblem inference, and summarizing subproblem conclusions. Through analysis based on CryptoBench, we highlight the value of independently studying compositional reasoning and emphasize the need to enhance the compositional reasoning capabilities of LLMs.
- Abstract(参考訳): 構成推論能力は、LLMの一般化とインテリジェンス発生に欠かせないものとみなされてきた。
しかし、多くの推論関連ベンチマークにもかかわらず、LCMの合成推論能力は、既存のベンチマークで研究または定量化されることは稀である。
本稿では,LLMの構成的推論能力を定量化するために,既存のベンチマークと暗号を組み合わせた評価フレームワークであるCryptoXを紹介する。
CryptoXを基盤としてCryptoBenchを構築し、これらの原則をいくつかのベンチマークに統合し、体系的な評価を行う。
我々はCryptoBenchを用いて広く使われているオープンソースLLMとクローズドソースLLMの詳細な実験を行い、オープンソースLLMとクローズドソースLLMの間に大きなギャップがあることを明らかにした。
我々はさらに、サブプロブレム分解、サブプロブレム推論、およびサブプロブレム結論の要約を含むLLMの構成的推論の内部メカニズムを明らかにするために、徹底的な機械的解釈可能性実験を行った。
本稿では,CryptoBenchに基づく分析を通じて,合成推論を独立に研究することの価値を強調し,LLMの合成推論能力を高める必要性を強調した。
関連論文リスト
- ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Investigating the (De)Composition Capabilities of Large Language Models in Natural-to-Formal Language Conversion [21.68354181391989]
大規模言語モデル(LLM)は、一般化され堅牢な自然言語変換(N2F)において、分解と構成の強力な能力を持つ必要がある。
我々は,N2F における LLM の分解と合成能力のセットを評価できるサンプルとタスクの構成を行うDEDCフレームワークを提案する。
本研究は,N2F における LLM の分解と合成の基本的な機能について,新たな視点を提供する。
論文 参考訳(メタデータ) (2025-01-24T17:15:09Z) - Argumentation Computation with Large Language Models : A Benchmark Study [6.0682923348298194]
大規模言語モデル(LLM)は、ニューロシンボリックコンピューティングにおいて大きな進歩を遂げた。
我々は,様々な抽象的論証セマンティクスの拡張を決定する上でのLLMの能力を検討することを目的とする。
論文 参考訳(メタデータ) (2024-12-21T18:23:06Z) - On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs [27.362012903540492]
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language
Models via Complexity Classes [32.154637177467684]
NPHardEvalは、900の質問の幅広い範囲にわたって、LLM(Large Language Models)の推論能力を評価するように設計されている。
NP-ハード複雑性クラス以下の幅広い複雑性クラスを表現するために慎重に選択される。
データポイントを毎月更新する動的更新メカニズムで設計されている。
論文 参考訳(メタデータ) (2023-12-22T18:07:44Z) - A Principled Framework for Knowledge-enhanced Large Language Model [58.1536118111993]
大規模言語モデル(LLM)は汎用性があるが、深い信頼性のある推論を必要とするタスクに悩まされることが多い。
本稿では、知識を効果的に固定し、閉ループ推論プロセスを用いるLLMを作成するための厳密な設計のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-18T18:10:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。