Fugu-MT 論文翻訳(概要): MAIR: A Massive Benchmark for Evaluating Instructed Retrieval

論文の概要: MAIR: A Massive Benchmark for Evaluating Instructed Retrieval

arxiv url: http://arxiv.org/abs/2410.10127v1
Date: Mon, 14 Oct 2024 03:26:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 18:38:07.258071
Title: MAIR: A Massive Benchmark for Evaluating Instructed Retrieval
Title（参考訳）: MAIR: 指示された検索を評価するための大規模なベンチマーク
Authors: Weiwei Sun, Zhengliang Shi, Jiulong Wu, Lingyong Yan, Xinyu Ma, Yiding Liu, Min Cao, Dawei Yin, Zhaochun Ren,
Abstract要約: 最近の情報検索(IR)モデルは、大量のデータセットとタスクに基づいて事前訓練され、命令調整される。 MAIR(Massive Instructed Retrieval Benchmark)は6つの領域にわたる126の異なるIRタスクを含む異種IRベンチマークである。我々は、最先端の命令調整型テキスト埋め込みモデルと再分類モデルのベンチマークを行う。
参考スコア（独自算出の注目度）: 39.22381869406682
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent information retrieval (IR) models are pre-trained and instruction-tuned on massive datasets and tasks, enabling them to perform well on a wide range of tasks and potentially generalize to unseen tasks with instructions. However, existing IR benchmarks focus on a limited scope of tasks, making them insufficient for evaluating the latest IR models. In this paper, we propose MAIR (Massive Instructed Retrieval Benchmark), a heterogeneous IR benchmark that includes 126 distinct IR tasks across 6 domains, collected from existing datasets. We benchmark state-of-the-art instruction-tuned text embedding models and re-ranking models. Our experiments reveal that instruction-tuned models generally achieve superior performance compared to non-instruction-tuned models on MAIR. Additionally, our results suggest that current instruction-tuned text embedding models and re-ranking models still lack effectiveness in specific long-tail tasks. MAIR is publicly available at https://github.com/sunnweiwei/Mair.
Abstract（参考訳）: 最近の情報検索(IR)モデルは、大量のデータセットやタスクに基づいて事前訓練および命令調整が行われ、幅広いタスクでうまく機能し、命令で見えないタスクに一般化する可能性がある。しかし、既存のIRベンチマークではタスクの範囲が限られており、最新のIRモデルを評価するには不十分である。本稿では、既存のデータセットから収集した6領域にわたる126個のIRタスクを含む異種IRベンチマークであるMAIR(Massive Instructed Retrieval Benchmark)を提案する。我々は、最先端の命令調整型テキスト埋め込みモデルと再分類モデルのベンチマークを行う。実験の結果, MAIR の非命令型モデルと比較して, 命令型モデルの方が性能がよいことがわかった。さらに,本研究の結果から,現在の命令調整型テキスト埋め込みモデルと再ランクモデルでは,特定のロングテールタスクにはまだ有効性が欠如していることが示唆された。 MAIRはhttps://github.com/sunnweiwei/Mair.comで公開されている。

関連論文リスト

Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
RE-AdaptIR: Improving Information Retrieval through Reverse Engineered Adaptation [37.969478059005574]
テキスト検索のために微調整された大規模言語モデル(LLM)は、いくつかの情報検索ベンチマークで最先端の結果を示している。本稿では,情報検索の文脈へのリバースエンジニアリング適応の拡張の有効性について検討する。
論文参考訳（メタデータ） (2024-06-20T22:28:11Z)
RAR-b: Reasoning as Retrieval Benchmark [7.275757292756447]
我々は、推論タスクを検索タスクに変換し、レトリバーモデルに格納された推論能力を評価する。最近のデコーダベースの埋め込みモデルは、ギャップを狭めることに非常に有望である。 Reasoning as Retrieval Benchmark (RAR-b) は、検索モデルに格納された推論能力を評価するためのタスクと設定の総合的なスイートである。
論文参考訳（メタデータ） (2024-04-09T14:34:48Z)
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions [71.5977045423177]
本稿では,情報検索システムにおける命令の利用について検討する。厳密なインストラクション評価ベンチマークを含むデータセットFollowIRを紹介した。我々は、IRモデルが複雑な命令に従うことを学習することは可能であることを示す。
論文参考訳（メタデータ） (2024-03-22T14:42:29Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文参考訳（メタデータ） (2023-06-07T19:59:23Z)
How Many Data Samples is an Additional Instruction Worth? [20.66688303609522]
最近導入された命令パラダイムは、自然言語で新しいタスクを定義することによって、NLPリソースを活用する非専門家ユーザーに権限を与える。この結果から,タスク間で平均200個のデータサンプルに付加的な命令を適用できることが示唆された。
論文参考訳（メタデータ） (2022-03-17T08:30:30Z)
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。 Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文参考訳（メタデータ） (2021-04-17T23:29:55Z)
Interpretable Learning-to-Rank with Generalized Additive Models [78.42800966500374]
ラーニング・ツー・ランクのモデルの解釈可能性は、非常に重要でありながら、比較的過小評価されている研究分野である。解釈可能なランキングモデルの最近の進歩は、主に既存のブラックボックスランキングモデルに対するポストホックな説明の生成に焦点を当てている。一般化加法モデル(GAM)をランキングタスクに導入することにより,本質的に解釈可能な学習 to ランクの基盤を築いた。
論文参考訳（メタデータ） (2020-05-06T01:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。