論文の概要: KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions
- arxiv url: http://arxiv.org/abs/2403.03866v1
- Date: Wed, 6 Mar 2024 17:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:12:48.489201
- Title: KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions
- Title(参考訳): KIWI:研究質問に対する知識集中型筆記指導のデータセット
- Authors: Fangyuan Xu, Kyle Lo, Luca Soldaini, Bailey Kuehl, Eunsol Choi, David
Wadden
- Abstract要約: ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
- 参考スコア(独自算出の注目度): 63.307317584926146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) adapted to follow user instructions are now
widely deployed as conversational agents. In this work, we examine one
increasingly common instruction-following task: providing writing assistance to
compose a long-form answer. To evaluate the capabilities of current LLMs on
this task, we construct KIWI, a dataset of knowledge-intensive writing
instructions in the scientific domain. Given a research question, an initial
model-generated answer and a set of relevant papers, an expert annotator
iteratively issues instructions for the model to revise and improve its answer.
We collect 1,260 interaction turns from 234 interaction sessions with three
state-of-the-art LLMs. Each turn includes a user instruction, a model response,
and a human evaluation of the model response. Through a detailed analysis of
the collected responses, we find that all models struggle to incorporate new
information into an existing answer, and to perform precise and unambiguous
edits. Further, we find that models struggle to judge whether their outputs
successfully followed user instructions, with accuracy at least 10 points short
of human agreement. Our findings indicate that KIWI will be a valuable resource
to measure progress and improve LLMs' instruction-following capabilities for
knowledge intensive writing tasks.
- Abstract(参考訳): ユーザ指示に従うように適応した大規模言語モデル(llm)が、今や会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
本課題における現在のLLMの能力を評価するため,科学領域における知識集約的な記述指導のデータセットKIWIを構築した。
研究質問、初期モデル生成の回答、関連する論文のセットが与えられたとき、専門家はモデルが答えを改訂し改善するための指示を反復的に発行する。
234のインタラクションセッションから1,260のインタラクションを3つの最先端llmで収集した。
各ターンは、ユーザ命令、モデル応答、およびモデル応答のヒューマン評価を含む。
収集された回答の詳細な分析を通じて、すべてのモデルが既存の回答に新しい情報を組み込むのに苦労し、正確であいまいな編集を行うことがわかりました。
さらに, ユーザの指示に従えば, 少なくとも10ポイントの精度で, アウトプットが成功するかどうかを判断する上で, モデルが困難であることが判明した。
この結果から,KIWI は知識集中型書記作業における LLM の指導追従能力を向上させるための貴重な資源となることが示唆された。
関連論文リスト
- Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
riSumを用いて評価方法と人的判断の一致を分析した。
論文 参考訳(メタデータ) (2023-10-12T15:07:11Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - From Language Modeling to Instruction Following: Understanding the
Behavior Shift in LLMs after Instruction Tuning [66.82960120533544]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較して、命令チューニングの影響について研究する。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of
Instruction Manuals [73.92140342353012]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。