論文の概要: SCOP: Evaluating the Comprehension Process of Large Language Models from a Cognitive View
- arxiv url: http://arxiv.org/abs/2506.05000v1
- Date: Thu, 05 Jun 2025 13:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.716532
- Title: SCOP: Evaluating the Comprehension Process of Large Language Models from a Cognitive View
- Title(参考訳): SCOP:認知的視点による大規模言語モデルの理解過程の評価
- Authors: Yongjie Xiao, Hongru Liang, Peixin Qin, Yao Zhang, Wenqiang Lei,
- Abstract要約: 本稿では,認知的視点からの理解過程において,大規模言語モデルがどのように機能するかを検討するために,SCOPを提案する。
LLMが専門家レベルの理解プロセスを実行することは依然として困難である。
さらなる分析により、LSMはある程度信頼できない可能性があることが判明し、欠陥のある理解プロセスを通じて正しい答えを得る可能性がある。
- 参考スコア(独自算出の注目度): 20.453047197167475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great potential of large language models(LLMs) in machine comprehension, it is still disturbing to fully count on them in real-world scenarios. This is probably because there is no rational explanation for whether the comprehension process of LLMs is aligned with that of experts. In this paper, we propose SCOP to carefully examine how LLMs perform during the comprehension process from a cognitive view. Specifically, it is equipped with a systematical definition of five requisite skills during the comprehension process, a strict framework to construct testing data for these skills, and a detailed analysis of advanced open-sourced and closed-sourced LLMs using the testing data. With SCOP, we find that it is still challenging for LLMs to perform an expert-level comprehension process. Even so, we notice that LLMs share some similarities with experts, e.g., performing better at comprehending local information than global information. Further analysis reveals that LLMs can be somewhat unreliable -- they might reach correct answers through flawed comprehension processes. Based on SCOP, we suggest that one direction for improving LLMs is to focus more on the comprehension process, ensuring all comprehension skills are thoroughly developed during training.
- Abstract(参考訳): 機械理解における大きな言語モデル(LLM)の大きな可能性にもかかわらず、現実のシナリオでそれらを完全にカウントすることはいまだに困難である。
LLMの理解過程が専門家のものと一致しているかという合理的な説明がないためだろう。
本稿では,認知的視点からLLMが理解過程においてどのように機能するかを慎重に検討するために,SCOPを提案する。
具体的には、理解過程における5つの必要なスキルの体系的定義、これらのスキルのテストデータを構築するための厳格なフレームワーク、そしてテストデータを用いた高度なオープンソースおよびクローズドソースLCMの詳細な分析を備える。
SCOPでは、LSMが専門家レベルの理解プロセスを実行することは依然として困難であることがわかった。
それでも、LLMは専門家と類似点を共有しており、例えば、グローバル情報よりも地域情報の理解が優れていることに気付きます。
さらなる分析により、LSMはある程度信頼できない可能性があることが判明し、欠陥のある理解プロセスを通じて正しい答えを得る可能性がある。
SCOPに基づいて,LLMの改善の1つの方向性は,学習中にすべての理解スキルが十分に開発されるように,理解プロセスに集中することである。
関連論文リスト
- Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - LLMs' Understanding of Natural Language Revealed [0.0]
大規模言語モデル(LLM)は、大規模言語におけるボトムアップ、データ駆動のリバースエンジニアリングにおける大規模な実験の結果である。
私たちはLLMの言語理解能力、彼らが想定する砦をテストすることに重点を置きます。
論文 参考訳(メタデータ) (2024-07-29T01:21:11Z) - Can Large Language Models Understand DL-Lite Ontologies? An Empirical Study [10.051572826948762]
大規模モデル(LLM)は、幅広いタスクを解く上で大きな成果を上げている。
我々は、記述論理(DL-Lite)を理解するLLMの能力を実証的に分析する。
LLMは概念と役割の形式的構文とモデル理論的意味論を理解する。
論文 参考訳(メタデータ) (2024-06-25T13:16:34Z) - Connecting the Dots: LLMs can Infer and Verbalize Latent Structure from Disparate Training Data [9.31120925026271]
本研究では, LLMが学習文書に分散した証拠から潜伏情報を推測する, 暗黙の帰納的推論(OOCR)について検討する。
ある実験では、未知の都市と他の既知の都市の間の距離のみからなるコーパスにLSMを微調整する。
OOCRは様々なケースで成功するが、特にLLMが複雑な構造を学ぶ場合、信頼性が低いことも示している。
論文 参考訳(メタデータ) (2024-06-20T17:55:04Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。