論文の概要: HintEval: A Comprehensive Framework for Hint Generation and Evaluation for Questions
- arxiv url: http://arxiv.org/abs/2502.00857v1
- Date: Sun, 02 Feb 2025 17:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:05.920851
- Title: HintEval: A Comprehensive Framework for Hint Generation and Evaluation for Questions
- Title(参考訳): HintEval: 質問に対するヒント生成と評価のための総合的なフレームワーク
- Authors: Jamshid Mozafari, Bhawna Piryani, Abdelrahman Abdallah, Adam Jatowt,
- Abstract要約: HintEvalはPythonライブラリで、多様なデータセットにアクセスしやすくし、ヒントを生成して評価するための複数のアプローチを提供する。
参入障壁を減らすことで、HintEvalは、NLP/IRコミュニティ内のヒント生成と分析研究を促進するための大きな一歩を提供する。
- 参考スコア(独自算出の注目度): 16.434748534272014
- License:
- Abstract: Large Language Models (LLMs) are transforming how people find information, and many users turn nowadays to chatbots to obtain answers to their questions. Despite the instant access to abundant information that LLMs offer, it is still important to promote critical thinking and problem-solving skills. Automatic hint generation is a new task that aims to support humans in answering questions by themselves by creating hints that guide users toward answers without directly revealing them. In this context, hint evaluation focuses on measuring the quality of hints, helping to improve the hint generation approaches. However, resources for hint research are currently spanning different formats and datasets, while the evaluation tools are missing or incompatible, making it hard for researchers to compare and test their models. To overcome these challenges, we introduce HintEval, a Python library that makes it easy to access diverse datasets and provides multiple approaches to generate and evaluate hints. HintEval aggregates the scattered resources into a single toolkit that supports a range of research goals and enables a clear, multi-faceted, and reliable evaluation. The proposed library also includes detailed online documentation, helping users quickly explore its features and get started. By reducing barriers to entry and encouraging consistent evaluation practices, HintEval offers a major step forward for facilitating hint generation and analysis research within the NLP/IR community.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人々が情報を見つける方法を変えつつある。
LLMが提供する豊富な情報への即時アクセスにもかかわらず、批判的思考と問題解決のスキルを促進することが依然として重要である。
自動ヒント生成は、ユーザーが直接公開せずに回答を導くヒントを作成することで、人間が質問に答えることを支援することを目的とした新しいタスクである。
この文脈では、ヒント評価はヒントの品質を測定することに焦点を当て、ヒント生成アプローチを改善するのに役立つ。
しかしながら、ヒント研究のためのリソースは現在、さまざまなフォーマットやデータセットにまたがっている一方で、評価ツールが欠如している、あるいは互換性がないため、研究者がモデルを比較、テストすることが難しくなっている。
HintEvalは多様なデータセットへのアクセスを容易にし、ヒントを生成して評価するための複数のアプローチを提供するPythonライブラリです。
HintEvalは、散在するリソースを単一のツールキットに集約し、さまざまな研究目標をサポートし、明確で多面的で信頼性の高い評価を可能にする。
提案されたライブラリには詳細なオンラインドキュメントも含まれている。
参入障壁を減らし、一貫した評価プラクティスを促進することで、HintEvalは、NLP/IRコミュニティ内のヒント生成と分析研究を促進するための大きな一歩を提供する。
関連論文リスト
- WikiHint: A Human-Annotated Dataset for Hint Ranking and Generation [15.144785147549713]
最初に手動で構築したヒントデータセットWikiHintを紹介した。
次に,LLaMA-3.1 などのオープンソース LLM を微調整し,応答認識や応答に依存しない文脈でのヒント生成を行う。
我々は,ヒントの助けを借りずに質問に答える人間の被験者に対して,ヒントの有効性を評価する。
論文 参考訳(メタデータ) (2024-12-02T15:44:19Z) - Enhancing Answer Attribution for Faithful Text Generation with Large Language Models [5.065947993017158]
本稿では,より独立的で文脈的なクレームを生成できる新しい手法を提案する。
新しい手法が評価され,回答帰属成分の性能が向上することが示されている。
論文 参考訳(メタデータ) (2024-10-22T15:37:46Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - TriviaHG: A Dataset for Automatic Hint Generation from Factoid Questions [20.510164413931577]
ファクトイド問題に対するヒント自動生成のためのフレームワークを提案する。
我々はTriviaQAデータセットから16,645の質問に対応する160,230のヒントを含む新しい大規模データセットを構築した。
提案手法とTriviaHGデータセットを評価するために,提案したヒントを用いて10名の個人に2,791のヒントを注釈付け,6名の人間に回答を指示した。
論文 参考訳(メタデータ) (2024-03-27T10:27:28Z) - Next-Step Hint Generation for Introductory Programming Using Large
Language Models [0.8002196839441036]
大きな言語モデルは、質問に答えたり、エッセイを書いたり、プログラミングの練習を解くといったスキルを持っている。
本研究は,LLMが学生に次のステップの自動ヒントを提供することで,プログラミング教育にどう貢献できるかを考察する。
論文 参考訳(メタデータ) (2023-12-03T17:51:07Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Self-Knowledge Guided Retrieval Augmentation for Large Language Models [59.771098292611846]
大規模言語モデル(LLM)はタスク固有の微調整なしで優れた性能を示す。
検索に基づく手法は、非パラメトリックな世界知識を提供し、質問応答のようなタスクのパフォーマンスを向上させることができる。
SKR(Self-Knowledge guided Retrieval augmentation)は、LLMがこれまで遭遇した質問を参照できるようにする、シンプルで効果的な方法である。
論文 参考訳(メタデータ) (2023-10-08T04:22:33Z) - Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。