論文の概要: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
- arxiv url: http://arxiv.org/abs/2403.15246v1
- Date: Fri, 22 Mar 2024 14:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:09:34.183675
- Title: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
- Title(参考訳): FollowIR: 情報検索モデルの評価と指導
- Authors: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini,
- Abstract要約: Information Retrievalモデルは命令を正しく使うことができず、基本的なキーワードとして使うことができず、長文情報を理解するのに苦労している。
このデータセットには厳密なインストラクション評価ベンチマークと、IRモデルによる実世界のインストラクションの学習を支援するトレーニングセットが含まれています。
この結果から,既存の検索モデルでは命令を正しく使用できず,基本キーワードとして使用し,長文情報の理解に苦慮していることが示唆された。
- 参考スコア(独自算出の注目度): 71.5977045423177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it's unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、多種多様なユーザタスクを可能にする長く複雑な命令に従うことができる。
しかしながら、アーキテクチャのバックボーンとしてLLMを使用したInformation Retrieval (IR)モデルにもかかわらず、ほとんどすべてのアーキテクチャは、命令なしでクエリを入力としてのみ取り込んでいる。
命令を取る最近のモデルでは、どのように使うのかは定かではありません。
このデータセットには厳密なインストラクション評価ベンチマークと、IRモデルによる実世界のインストラクションの学習を支援するトレーニングセットが含まれています。
TRECは人間のアノテータに文書の関連性を決定する命令(物語とも呼ばれる)を提供するので、IRモデルはこれらの詳細な指示に基づいて関連性を理解して決定することができる。
評価ベンチマークでは,3つのTRECコレクションから開始し,アノテータ命令を変更し,関連文書を再注釈する。
このプロセスを通じて、新しいペアワイズ評価フレームワークにより、IRモデルがどのように命令に従うかを測定することができる。
この結果から,既存の検索モデルでは命令を正しく使用できず,基本キーワードとして使用し,長文情報の理解に苦慮していることが示唆された。
我々の新しいFollowIR-7Bモデルは、トレーニングセットを微調整した後、13%以上で大幅に改善されている。
関連論文リスト
- Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models [17.202017214385826]
本研究では,コンテンツ関連性を超えた各種検索モデルの指示追従能力について検討した。
6つの文書レベル属性にまたがる新しい検索評価ベンチマークを開発した。
以上の結果から,再ランク付けモデルが後続命令の検索モデルを上回っているのに対して,特定の属性を扱う上では依然として課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-31T11:47:21Z) - MAIR: A Massive Benchmark for Evaluating Instructed Retrieval [39.22381869406682]
最近の情報検索(IR)モデルは、大量のデータセットとタスクに基づいて事前訓練され、命令調整される。
MAIR(Massive Instructed Retrieval Benchmark)は6つの領域にわたる126の異なるIRタスクを含む異種IRベンチマークである。
我々は、最先端の命令調整型テキスト埋め込みモデルと再分類モデルのベンチマークを行う。
論文 参考訳(メタデータ) (2024-10-14T03:26:51Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - INSTRUCTIR: A Benchmark for Instruction Following of Information
Retrieval Models [32.16908034520376]
検索者は、ユーザの意図した検索コンテキストを掘り下げることなく、クエリ情報のみを優先順位付けする。
本稿では,情報検索タスクにおける指示追従能力の評価に特化して設計された新しいベンチマークINSTRUCTIRを提案する。
InSTRUCTORのようなタスクスタイルの指示に従うように微調整されたレトリバーは、命令なしの命令に比べて性能が劣る。
論文 参考訳(メタデータ) (2024-02-22T06:59:50Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Task-aware Retrieval with Instructions [91.87694020194316]
そこで本研究では,検索システムのユーザがクエリとともに意図を明示的に記述する,命令による検索の問題について検討する。
本稿では,多様な検索タスクを指示で訓練したマルチタスク検索システムTARTを提案する。
TARTは命令を通じて新しいタスクに適応する強力な能力を示し、2つのゼロショット検索ベンチマークでテクニックの状態を向上する。
論文 参考訳(メタデータ) (2022-11-16T23:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。