論文の概要: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
- arxiv url: http://arxiv.org/abs/2403.15246v3
- Date: Tue, 7 May 2024 14:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 19:13:23.601404
- Title: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
- Title(参考訳): FollowIR: 情報検索モデルの評価と指導
- Authors: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini,
- Abstract要約: 本稿では,情報検索システムにおける命令の利用について検討する。
厳密なインストラクション評価ベンチマークを含むデータセットFollowIRを紹介した。
我々は、IRモデルが複雑な命令に従うことを学習することは可能であることを示す。
- 参考スコア(独自算出の注目度): 71.5977045423177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Language Models (LMs) are capable of following long and complex instructions that enable a large and diverse set of user requests. While Information Retrieval (IR) models use these LMs as the backbone of their architectures, virtually none of them allow users to provide detailed instructions alongside queries, thus limiting their ability to satisfy complex information needs. In this work, we study the use of instructions in IR systems. First, we introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR repurposes detailed instructions -- also known as narratives -- developed for professional assessors to evaluate retrieval systems. In particular, we build our benchmark from three collections curated for shared tasks at the Text REtrieval Conference (TREC). These collections contains hundreds to thousands of labeled documents per query, making them suitable for our exploration. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements after fine-tuning on our training set.
- Abstract(参考訳): モダン言語モデル(LM)は、広範囲で多様なユーザリクエストを可能にする、長く複雑な命令に従うことができる。
Information Retrieval (IR) モデルは、これらのLMをアーキテクチャのバックボーンとして使用するが、実際には、ユーザがクエリと並行して詳細なインストラクションを提供できないため、複雑な情報要求を満たす能力が制限される。
本研究では,赤外線システムにおける命令の使用について検討する。
まず、厳格なインストラクション評価ベンチマークと、IRモデルによる実世界のインストラクションの学習を支援するトレーニングセットを含む、私たちのデータセットFollowIRを紹介します。
FollowIRは、専門家が検索システムを評価するために開発された詳細な指示(物語とも呼ばれる)を再利用する。
特に,テキスト検索会議(TREC)において,共有タスク用にキュレートされた3つのコレクションからベンチマークを構築した。
これらのコレクションには、クエリ毎に数百から数千のラベル付きドキュメントが含まれています。
このプロセスを通じて、新しいペアワイズ評価フレームワークにより、IRモデルがどのように命令に従うかを測定することができる。
この結果から,既存の検索モデルでは命令を正しく使用できず,基本キーワードとして使用し,長文情報の理解に苦慮していることが示唆された。
我々の新しいFollowIR-7Bモデルは、トレーニングセットを微調整した後、大幅に改善されている。
関連論文リスト
- Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [17.202017214385826]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。
6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。
以上の結果から,再ランク付けモデルが後続命令の検索モデルを上回っているのに対して,特定の属性を扱う上では依然として課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-31T11:47:21Z) - MAIR: A Massive Benchmark for Evaluating Instructed Retrieval [39.22381869406682]
最近の情報検索(IR)モデルは、大量のデータセットとタスクに基づいて事前訓練され、命令調整される。
MAIR(Massive Instructed Retrieval Benchmark)は6つの領域にわたる126の異なるIRタスクを含む異種IRベンチマークである。
我々は、最先端の命令調整型テキスト埋め込みモデルと再分類モデルのベンチマークを行う。
論文 参考訳(メタデータ) (2024-10-14T03:26:51Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - INSTRUCTIR: A Benchmark for Instruction Following of Information
Retrieval Models [32.16908034520376]
検索者は、ユーザの意図した検索コンテキストを掘り下げることなく、クエリ情報のみを優先順位付けする。
本稿では,情報検索タスクにおける指示追従能力の評価に特化して設計された新しいベンチマークINSTRUCTIRを提案する。
InSTRUCTORのようなタスクスタイルの指示に従うように微調整されたレトリバーは、命令なしの命令に比べて性能が劣る。
論文 参考訳(メタデータ) (2024-02-22T06:59:50Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Task-aware Retrieval with Instructions [91.87694020194316]
そこで本研究では,検索システムのユーザがクエリとともに意図を明示的に記述する,命令による検索の問題について検討する。
本稿では,多様な検索タスクを指示で訓練したマルチタスク検索システムTARTを提案する。
TARTは命令を通じて新しいタスクに適応する強力な能力を示し、2つのゼロショット検索ベンチマークでテクニックの状態を向上する。
論文 参考訳(メタデータ) (2022-11-16T23:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。