論文の概要: Augmenting Researchy Questions with Sub-question Judgments
- arxiv url: http://arxiv.org/abs/2510.21733v1
- Date: Tue, 30 Sep 2025 19:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 05:35:45.937934
- Title: Augmenting Researchy Questions with Sub-question Judgments
- Title(参考訳): サブクエスト判断による研究課題の拡充
- Authors: Jia-Huei Ju, Eugene Yang, Trevor Adriaanse, Andrew Yates,
- Abstract要約: 我々はLlama3.370Bモデルを用いて,LLM-judgedラベルを用いたResearchy Questionsデータセットをサブクエスト毎に拡張する。
我々は、これらのサブクエストラベルを、複雑な情報ニーズをよりよく支援する検索モデルを訓練するためのリソースとして使うつもりである。
- 参考スコア(独自算出の注目度): 21.19045408104933
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Researchy Questions dataset provides about 100k question queries with complex information needs that require retrieving information about several aspects of a topic. Each query in ResearchyQuestions is associated with sub-questions that were produced by prompting GPT-4. While ResearchyQuestions contains labels indicating what documents were clicked after issuing the query, there are no associations in the dataset between sub-questions and relevant documents. In this work, we augment the Researchy Questions dataset with LLM-judged labels for each sub-question using a Llama3.3 70B model. We intend these sub-question labels to serve as a resource for training retrieval models that better support complex information needs.
- Abstract(参考訳): Researchy Questionsデータセットは、トピックのいくつかの側面に関する情報を取得する必要がある複雑な情報を必要とする約100万の質問クエリを提供する。
ResearchyQuestionsの各クエリは、GPT-4のプロンプトによって生成されたサブクエストに関連付けられている。
ResearchyQuestionsには、クエリの発行後にどのドキュメントがクリックされたかを示すラベルが含まれているが、サブクエストと関連するドキュメントの間のデータセットには関連性はない。
本研究では,Llama3.370Bモデルを用いて,LLM-judgedラベルを用いたResearchy Questionsデータセットをサブクエスト毎に拡張する。
我々は、これらのサブクエストラベルを、複雑な情報ニーズをよりよく支援する検索モデルを訓練するためのリソースとして使うつもりである。
関連論文リスト
- No Stupid Questions: An Analysis of Question Query Generation for Citation Recommendation [29.419731388642393]
GPT-4o-miniは、答えると、科学論文からの抜粋に関する新たな洞察を公開することができる。
本研究では,これらの質問を検索クエリとして有効性を評価し,マスク付きターゲット文書の検索とランク付けに有効性を評価する。
論文 参考訳(メタデータ) (2025-06-09T20:13:32Z) - PeerQA: A Scientific Question Answering Dataset from Peer Reviews [51.95579001315713]
実世界の科学的、文書レベルの質問回答データセットであるPeerQAを提示する。
データセットには208の学術論文から579のQAペアが含まれており、MLとNLPが多数を占めている。
収集したデータセットを詳細に分析し、3つのタスクのベースラインシステムを確立する実験を行う。
論文 参考訳(メタデータ) (2025-02-19T12:24:46Z) - JDocQA: Japanese Document Question Answering Dataset for Generative Language Models [15.950718839723027]
本稿では,大規模文書ベースのQAデータセットであるJDocQAについて紹介する。
PDF形式で5,504件の文書と日本語で11,600件の質問・回答文からなる。
現実的な質問応答アプリケーションのために,複数のカテゴリの質問と,文書から解答不能な質問を取り入れた。
論文 参考訳(メタデータ) (2024-03-28T14:22:54Z) - Researchy Questions: A Dataset of Multi-Perspective, Decompositional
Questions for LLM Web Agents [22.023543164141504]
我々は,検索エンジンクエリのデータセットであるResearchy Questionsを紹介した。
クリックやセッションの長さといったシグナルによって,これらの質問に多くの労力が費やされていることを,私たちは示しています。
また、サブクエストへの分解のようなスロー思考の解答技術は、直接解答するよりも有益であることを示す。
論文 参考訳(メタデータ) (2024-02-27T21:27:16Z) - A Dataset of Open-Domain Question Answering with Multiple-Span Answers [11.291635421662338]
マルチスパン回答抽出(Multi-span answer extract)は、マルチスパン質問応答(MSQA)のタスクとしても知られ、現実世界のアプリケーションにとって重要な課題である。
中国語ではMSQAベンチマークが公開されていない。
CLEANは、中国の総合的なマルチスパン質問応答データセットである。
論文 参考訳(メタデータ) (2024-02-15T13:03:57Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - WebCPM: Interactive Web Search for Chinese Long-form Question Answering [104.676752359777]
LFQA(Long-form Question answering)は、複雑でオープンな質問に、段落長の詳細な回答で答えることを目的としている。
中国初のLFQAデータセットであるWebCPMを紹介する。
高品質な質問応答対5,500件,支援事実14,315件,Web検索121,330件を収集した。
論文 参考訳(メタデータ) (2023-05-11T14:47:29Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。