論文の概要: Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11341v2
- Date: Tue, 20 May 2025 10:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.396441
- Title: Benchmarking Critical Questions Generation: A Challenging Reasoning Task for Large Language Models
- Title(参考訳): 批判的質問生成のベンチマーク: 大規模言語モデルのためのカオス推論タスク
- Authors: Banca Calvo Figueras, Rodrigo Agerri,
- Abstract要約: 批判的質問生成(CQs-Gen)は、システムの前提となる仮定を明らかにする質問生成を可能にすることによって、批判的思考を促進することを目的としている。
この領域への関心が高まっているにもかかわらず、適切なデータセットと自動評価基準の欠如によって進歩が妨げられている。
本稿では,本課題に対するシステムの開発とベンチマークを支援するための包括的アプローチを提案する。
- 参考スコア(独自算出の注目度): 6.0158981171030685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of Critical Questions Generation (CQs-Gen) aims to foster critical thinking by enabling systems to generate questions that expose underlying assumptions and challenge the validity of argumentative reasoning structures. Despite growing interest in this area, progress has been hindered by the lack of suitable datasets and automatic evaluation standards. This paper presents a comprehensive approach to support the development and benchmarking of systems for this task. We construct the first large-scale dataset including $~$5K manually annotated questions. We also investigate automatic evaluation methods and propose a reference-based technique using large language models (LLMs) as the strategy that best correlates with human judgments. Our zero-shot evaluation of 11 LLMs establishes a strong baseline while showcasing the difficulty of the task. Data and code plus a public leaderboard are provided to encourage further research not only in terms of model performance, but also to explore the practical benefits of CQs-Gen for both automated reasoning and human critical thinking.
- Abstract(参考訳): 批判的質問生成の課題(CQs-Gen)は、システムの前提となる仮定を明らかにする質問生成を可能にし、議論的推論構造の有効性に挑戦することで、批判的思考を促進することを目的としている。
この領域への関心が高まっているにもかかわらず、適切なデータセットと自動評価基準の欠如によって進歩が妨げられている。
本稿では,本課題に対するシステムの開発とベンチマークを支援するための包括的アプローチを提案する。
手動で5Kのアノテート質問を含む,最初の大規模データセットを構築した。
また,人間の判断に最も相関する戦略として,大規模言語モデル(LLM)を用いた参照ベース手法を提案する。
11個のLDMのゼロショット評価は、タスクの難易度を示しながら、強いベースラインを確立する。
データとコードと公開リーダボードは、モデルパフォーマンスだけでなく、自動推論と人間の批判的思考の両方に対するCQs-Genの実践的なメリットを探求するためにも提供されます。
関連論文リスト
- Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。
i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。
この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (2025-04-26T07:48:52Z) - Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。