論文の概要: WikiHint: A Human-Annotated Dataset for Hint Ranking and Generation
- arxiv url: http://arxiv.org/abs/2412.01626v2
- Date: Sun, 02 Feb 2025 16:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:06:01.275350
- Title: WikiHint: A Human-Annotated Dataset for Hint Ranking and Generation
- Title(参考訳): WikiHint:Hintランキングと生成のための人称アノテーション付きデータセット
- Authors: Jamshid Mozafari, Florian Gerhold, Adam Jatowt,
- Abstract要約: 最初に手動で構築したヒントデータセットWikiHintを紹介した。
次に,LLaMA-3.1 などのオープンソース LLM を微調整し,応答認識や応答に依存しない文脈でのヒント生成を行う。
我々は,ヒントの助けを借りずに質問に答える人間の被験者に対して,ヒントの有効性を評価する。
- 参考スコア(独自算出の注目度): 15.144785147549713
- License:
- Abstract: The use of Large Language Models (LLMs) has increased significantly with users frequently asking questions to chatbots. In the time when information is readily accessible, it is crucial to stimulate and preserve human cognitive abilities and maintain strong reasoning skills. This paper addresses such challenges by promoting the use of hints as an alternative or a supplement to direct answers. We first introduce a manually constructed hint dataset, WikiHint, which is based on Wikipedia and includes 5,000 hints created for 1,000 questions. We then finetune open-source LLMs such as LLaMA-3.1 for hint generation in answer-aware and answeragnostic contexts. We assess the effectiveness of the hints with human participants who answer questions with and without the aid of hints. Additionally, we introduce a lightweight evaluation method, HintRank, to evaluate and rank hints in both answeraware and answer-agnostic settings. Our findings show that (a) the dataset helps generate more effective hints, (b) including answer information along with questions generally improves quality of generated hints, and (c) encoder-based models perform better than decoder-based models in hint ranking.
- Abstract(参考訳): 大規模言語モデル(LLM)の使用は、チャットボットに頻繁に質問するユーザによって大幅に増加している。
情報にアクセスしやすい時代には、人間の認知能力を刺激し、保存し、強力な推論スキルを維持することが不可欠である。
本稿では,ヒントを代替として,あるいは直接回答のための補足として活用することで,このような課題に対処する。
最初に手動で構築したヒントデータセットWikiHintを紹介した。
次に,LLaMA-3.1 などのオープンソース LLM を微調整し,応答認識や応答に依存しない文脈でのヒント生成を行う。
我々は,ヒントの助けを借りずに質問に答える人間の被験者に対して,ヒントの有効性を評価する。
さらに,HintRankというライトウェイトな評価手法を導入し,応答認識と応答非依存の双方でヒントの評価とランク付けを行う。
以上の結果から
a) データセットはより効果的なヒントを生成するのに役立ちます。
(b)質問と共に回答情報を含むと、一般的に生成されたヒントの品質が向上し、
(c)エンコーダベースのモデルは、ヒントランキングにおいてデコーダベースのモデルよりも優れている。
関連論文リスト
- HintEval: A Comprehensive Framework for Hint Generation and Evaluation for Questions [16.434748534272014]
HintEvalはPythonライブラリで、多様なデータセットにアクセスしやすくし、ヒントを生成して評価するための複数のアプローチを提供する。
参入障壁を減らすことで、HintEvalは、NLP/IRコミュニティ内のヒント生成と分析研究を促進するための大きな一歩を提供する。
論文 参考訳(メタデータ) (2025-02-02T17:07:18Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - TriviaHG: A Dataset for Automatic Hint Generation from Factoid Questions [20.510164413931577]
ファクトイド問題に対するヒント自動生成のためのフレームワークを提案する。
我々はTriviaQAデータセットから16,645の質問に対応する160,230のヒントを含む新しい大規模データセットを構築した。
提案手法とTriviaHGデータセットを評価するために,提案したヒントを用いて10名の個人に2,791のヒントを注釈付け,6名の人間に回答を指示した。
論文 参考訳(メタデータ) (2024-03-27T10:27:28Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Large Language Models Meet Knowledge Graphs to Answer Factoid Questions [57.47634017738877]
本稿では,知識グラフから追加情報に富んだ事前学習されたテキスト・テキスト言語モデルを探索する手法を提案する。
抽出した部分グラフの線形化によりトランスフォーマーモデルで容易に情報を得る。
抽出された情報で回答候補を最終ランク付けすると、事前訓練されたテキスト-テキスト言語モデルのHits@1スコアが4-6%向上する。
論文 参考訳(メタデータ) (2023-10-03T15:57:00Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - FOLLOWUPQG: Towards Information-Seeking Follow-up Question Generation [38.78216651059955]
実世界の情報検索フォローアップ質問生成(FQG)の課題について紹介する。
オープンエンド質問に対するRedditフレンドリーな説明を提供するフォーラムレイマンから収集した,3K以上の実世界のデータセット(初期質問,回答,フォローアップ質問)であるFOLLOWUPQGを構築した。
既存のデータセットとは対照的に、FOLLOWUPQGの質問は情報を求めるためにより多様な実用的戦略を使用し、高次認知能力も示している。
論文 参考訳(メタデータ) (2023-09-10T11:58:29Z) - Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。