論文の概要: KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions
- arxiv url: http://arxiv.org/abs/2403.03866v1
- Date: Wed, 6 Mar 2024 17:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:12:48.489201
- Title: KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions
- Title(参考訳): KIWI:研究質問に対する知識集中型筆記指導のデータセット
- Authors: Fangyuan Xu, Kyle Lo, Luca Soldaini, Bailey Kuehl, Eunsol Choi, David
Wadden
- Abstract要約: ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
- 参考スコア(独自算出の注目度): 63.307317584926146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) adapted to follow user instructions are now
widely deployed as conversational agents. In this work, we examine one
increasingly common instruction-following task: providing writing assistance to
compose a long-form answer. To evaluate the capabilities of current LLMs on
this task, we construct KIWI, a dataset of knowledge-intensive writing
instructions in the scientific domain. Given a research question, an initial
model-generated answer and a set of relevant papers, an expert annotator
iteratively issues instructions for the model to revise and improve its answer.
We collect 1,260 interaction turns from 234 interaction sessions with three
state-of-the-art LLMs. Each turn includes a user instruction, a model response,
and a human evaluation of the model response. Through a detailed analysis of
the collected responses, we find that all models struggle to incorporate new
information into an existing answer, and to perform precise and unambiguous
edits. Further, we find that models struggle to judge whether their outputs
successfully followed user instructions, with accuracy at least 10 points short
of human agreement. Our findings indicate that KIWI will be a valuable resource
to measure progress and improve LLMs' instruction-following capabilities for
knowledge intensive writing tasks.
- Abstract(参考訳): ユーザ指示に従うように適応した大規模言語モデル(llm)が、今や会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
本課題における現在のLLMの能力を評価するため,科学領域における知識集約的な記述指導のデータセットKIWIを構築した。
研究質問、初期モデル生成の回答、関連する論文のセットが与えられたとき、専門家はモデルが答えを改訂し改善するための指示を反復的に発行する。
234のインタラクションセッションから1,260のインタラクションを3つの最先端llmで収集した。
各ターンは、ユーザ命令、モデル応答、およびモデル応答のヒューマン評価を含む。
収集された回答の詳細な分析を通じて、すべてのモデルが既存の回答に新しい情報を組み込むのに苦労し、正確であいまいな編集を行うことがわかりました。
さらに, ユーザの指示に従えば, 少なくとも10ポイントの精度で, アウトプットが成功するかどうかを判断する上で, モデルが困難であることが判明した。
この結果から,KIWI は知識集中型書記作業における LLM の指導追従能力を向上させるための貴重な資源となることが示唆された。
関連論文リスト
- Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [17.202017214385826]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。
6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。
以上の結果から,再ランク付けモデルが後続命令の検索モデルを上回っているのに対して,特定の属性を扱う上では依然として課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-31T11:47:21Z) - Rewriting Conversational Utterances with Instructed Large Language Models [9.38751103209178]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成することができる。
本稿では,最高の検索性能をもたらす最も情報に富んだ発話を提示する手法について検討する。
その結果、LLMによる会話音声の書き直しは、MRRで25.2%、Precision@1で31.7%、NDCG@3で27%、Recall@500で11.5%の大幅な改善が達成された。
論文 参考訳(メタデータ) (2024-10-10T10:30:28Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions [71.5977045423177]
本稿では,情報検索システムにおける命令の利用について検討する。
厳密なインストラクション評価ベンチマークを含むデータセットFollowIRを紹介した。
我々は、IRモデルが複雑な命令に従うことを学習することは可能であることを示す。
論文 参考訳(メタデータ) (2024-03-22T14:42:29Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。