論文の概要: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
- arxiv url: http://arxiv.org/abs/2403.15246v1
- Date: Fri, 22 Mar 2024 14:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:09:34.183675
- Title: FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions
- Title(参考訳): FollowIR: 情報検索モデルの評価と指導
- Authors: Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini,
- Abstract要約: Information Retrievalモデルは命令を正しく使うことができず、基本的なキーワードとして使うことができず、長文情報を理解するのに苦労している。
このデータセットには厳密なインストラクション評価ベンチマークと、IRモデルによる実世界のインストラクションの学習を支援するトレーニングセットが含まれています。
この結果から,既存の検索モデルでは命令を正しく使用できず,基本キーワードとして使用し,長文情報の理解に苦慮していることが示唆された。
- 参考スコア(独自算出の注目度): 71.5977045423177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it's unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は、多種多様なユーザタスクを可能にする長く複雑な命令に従うことができる。
しかしながら、アーキテクチャのバックボーンとしてLLMを使用したInformation Retrieval (IR)モデルにもかかわらず、ほとんどすべてのアーキテクチャは、命令なしでクエリを入力としてのみ取り込んでいる。
命令を取る最近のモデルでは、どのように使うのかは定かではありません。
このデータセットには厳密なインストラクション評価ベンチマークと、IRモデルによる実世界のインストラクションの学習を支援するトレーニングセットが含まれています。
TRECは人間のアノテータに文書の関連性を決定する命令(物語とも呼ばれる)を提供するので、IRモデルはこれらの詳細な指示に基づいて関連性を理解して決定することができる。
評価ベンチマークでは,3つのTRECコレクションから開始し,アノテータ命令を変更し,関連文書を再注釈する。
このプロセスを通じて、新しいペアワイズ評価フレームワークにより、IRモデルがどのように命令に従うかを測定することができる。
この結果から,既存の検索モデルでは命令を正しく使用できず,基本キーワードとして使用し,長文情報の理解に苦慮していることが示唆された。
我々の新しいFollowIR-7Bモデルは、トレーニングセットを微調整した後、13%以上で大幅に改善されている。
関連論文リスト
- RAR-b: Reasoning as Retrieval Benchmark [7.275757292756447]
我々は、推論タスクを検索タスクに変換し、レトリバーモデルに格納された推論能力を評価する。
最近のデコーダベースの埋め込みモデルは、ギャップを狭めることに非常に有望である。
Reasoning as Retrieval Benchmark (RAR-b) は、検索モデルに格納された推論能力を評価するためのタスクと設定の総合的なスイートである。
論文 参考訳(メタデータ) (2024-04-09T14:34:48Z) - KIWI: A Dataset of Knowledge-Intensive Writing Instructions for
Answering Research Questions [63.307317584926146]
ユーザ命令に従うように適応された大規模言語モデル(LLM)は、現在では会話エージェントとして広くデプロイされている。
そこで本研究では,より一般的な命令追従タスクとして,長文の回答作成を支援することを提案する。
我々は、科学領域における知識集約的な記述命令のデータセットKIWIを構築した。
論文 参考訳(メタデータ) (2024-03-06T17:16:44Z) - INSTRUCTIR: A Benchmark for Instruction Following of Information
Retrieval Models [32.16908034520376]
検索者は、ユーザの意図した検索コンテキストを掘り下げることなく、クエリ情報のみを優先順位付けする。
本稿では,情報検索タスクにおける指示追従能力の評価に特化して設計された新しいベンチマークINSTRUCTIRを提案する。
InSTRUCTORのようなタスクスタイルの指示に従うように微調整されたレトリバーは、命令なしの命令に比べて性能が劣る。
論文 参考訳(メタデータ) (2024-02-22T06:59:50Z) - INTERS: Unlocking the Power of Large Language Models in Search with
Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of
Instruction Manuals [73.92140342353012]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Task-aware Retrieval with Instructions [91.87694020194316]
そこで本研究では,検索システムのユーザがクエリとともに意図を明示的に記述する,命令による検索の問題について検討する。
本稿では,多様な検索タスクを指示で訓練したマルチタスク検索システムTARTを提案する。
TARTは命令を通じて新しいタスクに適応する強力な能力を示し、2つのゼロショット検索ベンチマークでテクニックの状態を向上する。
論文 参考訳(メタデータ) (2022-11-16T23:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。