論文の概要: THiNK: Can Large Language Models Think-aloud?
- arxiv url: http://arxiv.org/abs/2505.20184v1
- Date: Mon, 26 May 2025 16:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.93949
- Title: THiNK: Can Large Language Models Think-aloud?
- Title(参考訳): THiNK: 大規模言語モデルは思考に適応できるか?
- Authors: Yongan Yu, Mengqian Wu, Yiran Lin, Nikki G. Lobczowski,
- Abstract要約: ブルーム分類に基づく多エージェントフィードバック駆動評価フレームワークであるTHiNKを提案する。
我々は、THiNKを7つの最先端言語モデルに適用し、その出力の認知分析を行う。
結果は、モデルが確実に下位のカテゴリをうまく実行するが、現実的な文脈における知識の適用に苦慮していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing higher-order thinking skills in large language models (LLMs) remains a fundamental challenge, especially in tasks that go beyond surface-level accuracy. In this work, we propose THiNK (Testing Higher-order Notion of Knowledge), a multi-agent, feedback-driven evaluation framework grounded in Bloom's Taxonomy. THiNK frames reasoning assessment as an iterative task of problem generation, critique, and revision, encouraging LLMs to think-aloud through step-by-step reflection and refinement. This enables a systematic evaluation of both lower-order (e.g., remember, understand) and higher-order (e.g., evaluate, create) thinking skills. We apply THiNK to seven state-of-the-art LLMs and perform a detailed cognitive analysis of their outputs. Results reveal that while models reliably perform lower-order categories well, they struggle with applying knowledge in realistic contexts and exhibit limited abstraction. Structured feedback loops significantly improve reasoning performance, particularly in higher-order thinking. Qualitative evaluations further confirm that THiNK-guided outputs better align with domain logic and problem structure. The code of our framework provides a scalable methodology for probing and enhancing LLM reasoning, offering new directions for evaluation grounded in learning science, which is available at our GitHub repository.
- Abstract(参考訳): 大規模言語モデル(LLM)における高次思考スキルの評価は、特に表面レベルの精度を超えるタスクにおいて、依然として根本的な課題である。
本研究では,Bloomの分類に基づく多エージェントフィードバック駆動評価フレームワークであるTHiNK(Testing Higher-order Notion of Knowledge)を提案する。
THiNKは、問題生成、批判、修正の反復的なタスクとしての推論評価の枠組みを定め、ステップバイステップのリフレクションと改善を通じてLLMに思考調整を奨励している。
これにより、低階(例えば、記憶、理解)と高階(例えば、評価、創造)の両方の思考スキルを体系的に評価できる。
我々は、THiNKを7つの最先端LCMに適用し、その出力の詳細な認知分析を行う。
その結果、モデルが確実に下位のカテゴリを適切に実行する一方で、現実的な文脈における知識の適用に苦慮し、限定的な抽象化を示すことが明らかとなった。
構造化されたフィードバックループは、特に高次思考において、推論性能を大幅に改善する。
定性評価により、THiNK誘導出力がドメイン論理や問題構造とよりよく一致していることが確認される。
当社のフレームワークのコードは、LLM推論の探索と拡張のためのスケーラブルな方法論を提供し、学習科学に基づく評価のための新たな方向性をGitHubリポジトリで公開しています。
関連論文リスト
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Can Github issues be solved with Tree Of Thoughts? [0.0]
本研究は,LLMの意思決定能力と問題解決能力を高めるための言語モデル推論フレームワークであるTree of Thoughts(ToT)の導入について紹介する。
私たちは、SWE-benchのインスタンスに含まれるGithubの問題に対処するために、ToTを実験的にデプロイします。
論文 参考訳(メタデータ) (2024-05-20T11:05:56Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。