論文の概要: Reproducing NevIR: Negation in Neural Information Retrieval
- arxiv url: http://arxiv.org/abs/2502.13506v2
- Date: Fri, 21 Feb 2025 10:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 12:49:59.205287
- Title: Reproducing NevIR: Negation in Neural Information Retrieval
- Title(参考訳): NevIRの再生:ニューラル情報検索における否定
- Authors: Coen van den Elsen, Francien Barkhof, Thijmen Nijdam, Simon Lupart, Mohammad Alliannejadi,
- Abstract要約: 否定は人間のコミュニケーションの基本的な側面であるが、情報検索(IR)における言語モデル(LM)の課題である。
NevIRは、ほとんどのIRモデルは、否定を扱う際にランダムランキングのレベル以下で機能することを示すベンチマーク研究である。
以上の結果から,最近登場したリストワイド・Large Language Model (LLM) のリランカーは,他のモデルよりも優れているが,人間のパフォーマンスは劣っていることがわかった。
- 参考スコア(独自算出の注目度): 1.4854797901022863
- License:
- Abstract: Negation is a fundamental aspect of human communication, yet it remains a challenge for Language Models (LMs) in Information Retrieval (IR). Despite the heavy reliance of modern neural IR systems on LMs, little attention has been given to their handling of negation. In this study, we reproduce and extend the findings of NevIR, a benchmark study that revealed most IR models perform at or below the level of random ranking when dealing with negation. We replicate NevIR's original experiments and evaluate newly developed state-of-the-art IR models. Our findings show that a recently emerging category - listwise Large Language Model (LLM) rerankers - outperforms other models but still underperforms human performance. Additionally, we leverage ExcluIR, a benchmark dataset designed for exclusionary queries with extensive negation, to assess the generalizability of negation understanding. Our findings suggest that fine-tuning on one dataset does not reliably improve performance on the other, indicating notable differences in their data distributions. Furthermore, we observe that only cross-encoders and listwise LLM rerankers achieve reasonable performance across both negation tasks.
- Abstract(参考訳): 否定は人間のコミュニケーションの基本的な側面であるが、情報検索(IR)における言語モデル(LM)の課題である。
現代のニューラルIRシステムがLMに大きく依存しているにもかかわらず、否定の扱いにはほとんど注意が払われていない。
本研究では,ほとんどのIRモデルが否定に対処する際のランダムランキングのレベル以下であることを示すベンチマーク研究であるNevIRの発見を再現し,拡張する。
我々はNevIRのオリジナルの実験を再現し、新たに開発された最先端のIRモデルを評価する。
以上の結果から,最近登場したリストワイド・Large Language Model (LLM) のリランカーは,他のモデルよりも優れているが,人間のパフォーマンスは劣っていることがわかった。
さらに、広範囲な否定を伴う排他的クエリのためのベンチマークデータセットであるExcluIRを活用し、否定的理解の一般化性を評価する。
以上の結果から,データセットの微調整は他方のパフォーマンスを確実に向上させるものではないことが示唆され,データ分布に顕著な違いが示唆された。
さらに、クロスエンコーダとリストワイズLLMリランカのみが、両方の否定タスクに対して合理的な性能を達成することを観察する。
関連論文リスト
- Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models [25.346800371132645]
Retrieval-augmented Large Language Models (RALMs) は、元の検索自由言語モデル (LMs) を一貫して上回るものではない。
提案実験により, この例レベルの性能不整合性は, 検索強化と検索不要のLMの間だけでなく, 異なる検索者の間にも存在することが明らかとなった。
本稿では,異なる知識ソースから適応的に検索し,予測不能な読み出し誤りを効果的に低減できるトレーニング可能なフレームワークであるEnsemble of Retrievers(EoR)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T08:22:49Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Evaluating Machine Learning Models with NERO: Non-Equivariance Revealed
on Orbits [19.45052971156096]
本研究では,Non-Equivariance Revealed on Orbits (NERO) Evaluationという新しい評価ワークフローを提案する。
NERO評価は、タスクに依存しない対話インタフェースと、NEROプロットと呼ばれる視覚化のセットで構成されている。
NEROの評価が2次元数値認識、物体検出、粒子画像速度測定(PIV)、および3次元点雲分類など、複数の研究領域に適用可能なケーススタディである。
論文 参考訳(メタデータ) (2023-05-31T14:24:35Z) - NevIR: Negation in Neural Information Retrieval [45.9442701147499]
否定は日常的な現象であり、言語モデル(LM)の弱点の一貫した領域である。
我々は、否定のみが異なる2つの文書のランク付けをIRモデルに求めるベンチマークを構築した。
クロスエンコーダは最適に動作し、後続の遅延相互作用モデルが続き、最後にはバイエンコーダとスパースニューラルアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-12T17:05:54Z) - Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。
最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。
本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2022-05-09T02:41:11Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Recoding latent sentence representations -- Dynamic gradient-based
activation modification in RNNs [0.0]
RNNでは、サブオプティマティックな方法で情報をエンコーディングすることは、シーケンスの後の要素に基づいて表現の質に影響を与える可能性がある。
勾配に基づく補正機構を用いて,標準RNNへの拡張を提案する。
言語モデリングの文脈で異なる実験を行い、そのようなメカニズムを使うことによる影響を詳細に調べる。
論文 参考訳(メタデータ) (2021-01-03T17:54:17Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。