論文の概要: "There Is No Such Thing as a Dumb Question," But There Are Good Ones
- arxiv url: http://arxiv.org/abs/2505.09923v1
- Date: Thu, 15 May 2025 03:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.16116
- Title: "There Is No Such Thing as a Dumb Question," But There Are Good Ones
- Title(参考訳): 「くだらない質問」なんてないけど、いいことあるよ
- Authors: Minjung Shin, Donghyun Kim, Jeh-Kwang Ryu,
- Abstract要約: 本研究は,優れた質問を定義し,体系的な評価枠組みを提案する。
本稿では,適切性(文脈における社会言語的能力)と有効性という2つの重要な評価次元を提案する。
動的文脈変数を組み込むことにより、評価フレームワークは半適応的基準によって構造と柔軟性を達成する。
- 参考スコア(独自算出の注目度): 4.962252439662465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Questioning has become increasingly crucial for both humans and artificial intelligence, yet there remains limited research comprehensively assessing question quality. In response, this study defines good questions and presents a systematic evaluation framework. We propose two key evaluation dimensions: appropriateness (sociolinguistic competence in context) and effectiveness (strategic competence in goal achievement). Based on these foundational dimensions, a rubric-based scoring system was developed. By incorporating dynamic contextual variables, our evaluation framework achieves structure and flexibility through semi-adaptive criteria. The methodology was validated using the CAUS and SQUARE datasets, demonstrating the ability of the framework to access both well-formed and problematic questions while adapting to varied contexts. As we establish a flexible and comprehensive framework for question evaluation, this study takes a significant step toward integrating questioning behavior with structured analytical methods grounded in the intrinsic nature of questioning.
- Abstract(参考訳): 質問は人間と人工知能の両方にとってますます重要になっているが、質問の品質を総合的に評価する研究は限られている。
そこで本研究では,優れた質問を定義し,体系的な評価枠組みを提案する。
本稿では,適切性(文脈における社会言語的能力)と有効性(目標達成における戦略的能力)の2つの重要な評価次元を提案する。
これらの基礎的次元に基づいて, ルーブリックに基づくスコアリングシステムを開発した。
動的文脈変数を組み込むことにより、評価フレームワークは半適応的基準によって構造と柔軟性を達成する。
この手法はCAUSとSQUAREのデータセットを用いて検証され、フレームワークが様々な状況に適応しながら、よくできた問題と問題のある問題の両方にアクセスできることが実証された。
質問評価のための柔軟で包括的な枠組みを確立するため,本研究は,質問行動の本質的な性質を基盤とした構造化分析手法と質問行動の統合に向けて大きな一歩を踏み出した。
関連論文リスト
- Evaluating the Fitness of Ontologies for the Task of Question Generation [0.0]
本稿では,課題生成タスクの適合度を評価するための要件セットとタスク固有の指標を提案する。
自動質問生成(AQG)における各種性能評価のためのエキスパートベースアプローチ
この結果から,様々なタスクが様々な性能レベルにおいて評価され,特徴が質問生成の有効性に大きく影響することが示唆された。
論文 参考訳(メタデータ) (2025-04-08T17:10:04Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - UKTF: Unified Knowledge Tracing Framework for Subjective and Objective Assessments [3.378008889662775]
知識追跡技術は、学習者の過去の回答データに基づいて知識状態モデルを確立することができる。
本研究は,主観的および主観的なテスト質問を統合した統合的知識追跡モデルを提案する。
論文 参考訳(メタデータ) (2024-11-08T04:58:19Z) - Multi-Faceted Question Complexity Estimation Targeting Topic Domain-Specificity [0.0]
本稿では,NLP手法と知識グラフ解析を併用した,ドメイン固有の質問難度推定のための新しいフレームワークを提案する。
本稿では,トピック検索コスト,トピック・サリエンス,トピック・コヒーレンス,トピック・スーパーファシリティの4つの主要なパラメータを紹介する。
これらの特徴を訓練したモデルにより,質問の難易度を予測する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-23T05:40:35Z) - Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。
HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。
本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文 参考訳(メタデータ) (2024-07-09T12:52:22Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - What should I Ask: A Knowledge-driven Approach for Follow-up Questions
Generation in Conversational Surveys [63.51903260461746]
対話型調査における知識駆動型フォローアップ質問生成のための新しい課題を提案する。
そこで我々は,対話履歴とラベル付き知識を用いた人手によるフォローアップ質問の新しいデータセットを構築した。
次に,その課題に対する2段階の知識駆動モデルを提案する。
論文 参考訳(メタデータ) (2022-05-23T00:57:33Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。