論文の概要: Reproducing NevIR: Negation in Neural Information Retrieval
- arxiv url: http://arxiv.org/abs/2502.13506v3
- Date: Thu, 01 May 2025 07:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.285728
- Title: Reproducing NevIR: Negation in Neural Information Retrieval
- Title(参考訳): NevIRの再生:ニューラル情報検索における否定
- Authors: Coen van den Elsen, Francien Barkhof, Thijmen Nijdam, Simon Lupart, Mohammad Aliannejadi,
- Abstract要約: 否定は人間のコミュニケーションの基本的な側面であるが、情報検索における言語モデル(IR)の課題である。
NevIRは、ほとんどのIRモデルは、否定を扱う際にランダムランキングのレベル以下で機能することを示すベンチマーク研究である。
以上の結果から,最近出現しているLarge Language Model (LLM) は他のモデルよりも性能が低いものの,性能が劣っていることが示唆された。
- 参考スコア(独自算出の注目度): 5.950812862331131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Negation is a fundamental aspect of human communication, yet it remains a challenge for Language Models (LMs) in Information Retrieval (IR). Despite the heavy reliance of modern neural IR systems on LMs, little attention has been given to their handling of negation. In this study, we reproduce and extend the findings of NevIR, a benchmark study that revealed most IR models perform at or below the level of random ranking when dealing with negation. We replicate NevIR's original experiments and evaluate newly developed state-of-the-art IR models. Our findings show that a recently emerging category-listwise Large Language Model (LLM) re-rankers-outperforms other models but still underperforms human performance. Additionally, we leverage ExcluIR, a benchmark dataset designed for exclusionary queries with extensive negation, to assess the generalisability of negation understanding. Our findings suggest that fine-tuning on one dataset does not reliably improve performance on the other, indicating notable differences in their data distributions. Furthermore, we observe that only cross-encoders and listwise LLM re-rankers achieve reasonable performance across both negation tasks.
- Abstract(参考訳): 否定は人間のコミュニケーションの基本的な側面であるが、情報検索(IR)における言語モデル(LM)の課題である。
現代のニューラルIRシステムがLMに大きく依存しているにもかかわらず、否定の扱いにはほとんど注意が払われていない。
本研究では,ほとんどのIRモデルが否定に対処する際のランダムランキングのレベル以下であることを示すベンチマーク研究であるNevIRの発見を再現し,拡張する。
我々はNevIRのオリジナルの実験を再現し、新たに開発された最先端のIRモデルを評価する。
以上の結果から,最近出現しているLarge Language Model (LLM) は他のモデルよりも性能が低いものの,性能が劣っていることが示唆された。
さらに、広範囲な否定を伴う排他的クエリのためのベンチマークデータセットであるExcluIRを活用し、否定的理解の一般化性を評価する。
以上の結果から,データセットの微調整は他方のパフォーマンスを確実に向上させるものではないことが示唆され,データ分布に顕著な違いが示唆された。
さらに、クロスエンコーダとリストワイズLLMリランカのみが、両方の否定タスクに対して合理的な性能を達成することを観察する。
関連論文リスト
- Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models [25.346800371132645]
Retrieval-augmented Large Language Models (RALMs) は、元の検索自由言語モデル (LMs) を一貫して上回るものではない。
提案実験により, この例レベルの性能不整合性は, 検索強化と検索不要のLMの間だけでなく, 異なる検索者の間にも存在することが明らかとなった。
本稿では,異なる知識ソースから適応的に検索し,予測不能な読み出し誤りを効果的に低減できるトレーニング可能なフレームワークであるEnsemble of Retrievers(EoR)を紹介する。
論文 参考訳(メタデータ) (2024-05-31T08:22:49Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Evaluating Machine Learning Models with NERO: Non-Equivariance Revealed
on Orbits [19.45052971156096]
本研究では,Non-Equivariance Revealed on Orbits (NERO) Evaluationという新しい評価ワークフローを提案する。
NERO評価は、タスクに依存しない対話インタフェースと、NEROプロットと呼ばれる視覚化のセットで構成されている。
NEROの評価が2次元数値認識、物体検出、粒子画像速度測定(PIV)、および3次元点雲分類など、複数の研究領域に適用可能なケーススタディである。
論文 参考訳(メタデータ) (2023-05-31T14:24:35Z) - NevIR: Negation in Neural Information Retrieval [45.9442701147499]
否定は日常的な現象であり、言語モデル(LM)の弱点の一貫した領域である。
我々は、否定のみが異なる2つの文書のランク付けをIRモデルに求めるベンチマークを構築した。
クロスエンコーダは最適に動作し、後続の遅延相互作用モデルが続き、最後にはバイエンコーダとスパースニューラルアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-12T17:05:54Z) - Improving negation detection with negation-focused pre-training [58.32362243122714]
否定は共通の言語的特徴であり、多くの言語理解タスクにおいて不可欠である。
最近の研究で、最先端のNLPモデルは否定を含むサンプルで性能が低いことが示されている。
本稿では,データ拡張と否定マスキングを対象とする,否定に焦点をあてた新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2022-05-09T02:41:11Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - NADE: A Benchmark for Robust Adverse Drug Events Extraction in Face of
Negations [8.380439657099906]
逆薬物イベント (ADE) 抽出法は, いわゆるメディアテキストの大量収集を迅速に調査し, 薬物関連副作用の言及を検知し, 医学的調査を誘発する。
近年のNLPのアドバンスにもかかわらず、そのようなモデルが言語品種にまたがって普及する傾向にあるにもかかわらず、そのようなモデルが頑丈であるかどうかは現在不明である。
本稿では,3つの最先端システムの評価を行い,ネガイオンに対する脆弱性を示すとともに,これらのモジュールの堅牢性を高めるための2つのストラテジーを提案する。
論文 参考訳(メタデータ) (2021-09-21T10:33:29Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。