論文の概要: Evaluating the Robustness of Dense Retrievers in Interdisciplinary Domains
- arxiv url: http://arxiv.org/abs/2506.21581v1
- Date: Mon, 16 Jun 2025 23:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.297539
- Title: Evaluating the Robustness of Dense Retrievers in Interdisciplinary Domains
- Title(参考訳): 学際領域におけるデンスレトリバーのロバスト性評価
- Authors: Sarthak Chaturvedi, Anurag Acharya, Rounak Meyur, Koby Hayashi, Sai Munikoti, Sameera Horawalavithana,
- Abstract要約: 評価ベンチマークの特徴は、検索モデルにおけるドメイン適応の真の利点を歪める可能性がある。
トピックの多様性,境界重なり,意味的複雑性といった,大きく異なる特徴を持つ2つのベンチマークが,微調整のメリットの認識に影響を及ぼす可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.6432265982168868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation benchmark characteristics may distort the true benefits of domain adaptation in retrieval models. This creates misleading assessments that influence deployment decisions in specialized domains. We show that two benchmarks with drastically different features such as topic diversity, boundary overlap, and semantic complexity can influence the perceived benefits of fine-tuning. Using environmental regulatory document retrieval as a case study, we fine-tune ColBERTv2 model on Environmental Impact Statements (EIS) from federal agencies. We evaluate these models across two benchmarks with different semantic structures. Our findings reveal that identical domain adaptation approaches show very different perceived benefits depending on evaluation methodology. On one benchmark, with clearly separated topic boundaries, domain adaptation shows small improvements (maximum 0.61% NDCG gain). However, on the other benchmark with overlapping semantic structures, the same models demonstrate large improvements (up to 2.22% NDCG gain), a 3.6-fold difference in the performance benefit. We compare these benchmarks through topic diversity metrics, finding that the higher-performing benchmark shows 11% higher average cosine distances between contexts and 23% lower silhouette scores, directly contributing to the observed performance difference. These results demonstrate that benchmark selection strongly determines assessments of retrieval system effectiveness in specialized domains. Evaluation frameworks with well-separated topics regularly underestimate domain adaptation benefits, while those with overlapping semantic boundaries reveal improvements that better reflect real-world regulatory document complexity. Our findings have important implications for developing and deploying AI systems for interdisciplinary domains that integrate multiple topics.
- Abstract(参考訳): 評価ベンチマークの特徴は、検索モデルにおけるドメイン適応の真の利点を歪める可能性がある。
これは、特殊なドメインにおけるデプロイメント決定に影響を与える誤解を招く評価を生み出します。
トピックの多様性,境界重なり,意味的複雑性といった,大きく異なる特徴を持つ2つのベンチマークが,微調整のメリットの認識に影響を及ぼすことを示す。
環境規制文書の検索をケーススタディとして,連邦機関の環境影響評価(EIS)に関するColBERTv2モデルを微調整する。
これらのモデルを,異なる意味構造を持つ2つのベンチマークで評価する。
以上の結果から,同一領域適応アプローチは評価手法によって非常に異なる利点を示すことが明らかとなった。
あるベンチマークでは、明確に分離されたトピック境界を持つドメイン適応は、小さな改善(最大0.61% NDCGゲイン)を示す。
しかし、重なり合うセマンティック構造を持つ他のベンチマークでは、同じモデルが大きな改善(最大2.22%のNDCGゲイン)を示し、パフォーマンスの利点は3.6倍になった。
これらのベンチマークをトピックの多様性指標を用いて比較したところ、高いパフォーマンスのベンチマークでは、コンテキスト間の平均コサイン距離が11%高く、シルエットスコアが23%低く、観察されたパフォーマンス差に直接寄与していることがわかった。
これらの結果から,ベンチマーク選択は,特定領域における検索システムの有効性の評価を強く決定することが示された。
適切に分離されたトピックを持つ評価フレームワークは、ドメイン適応のメリットを過小評価する一方、重複するセマンティックバウンダリを持つフレームワークは、現実の規制文書の複雑さを反映した改善を明らかにする。
我々の発見は、複数のトピックを統合する分野間ドメインのためのAIシステムの開発とデプロイに重要な意味を持つ。
関連論文リスト
- A New HOPE: Domain-agnostic Automatic Evaluation of Text Chunking [44.47350338664039]
文書チャンキングは検索強化世代(RAG)に根本的に影響する
現在、さまざまなチャンキングメソッドの影響を分析するためのフレームワークはありません。
本稿では,チャンキングプロセスの本質的特徴を3段階に定義する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T16:22:27Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Exploiting Aggregation and Segregation of Representations for Domain Adaptive Human Pose Estimation [50.31351006532924]
人間のポーズ推定(HPE)は最近、モーション分析、バーチャルリアリティー、ヘルスケア等に広く応用されているため、注目を集めている。
時間と労働集約的なアノテーションのために、ラベル付き現実世界のデータセットが不足している。
本稿では,ドメイン適応型人間のポーズ推定のための表現集約と分離を両立させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-29T17:59:45Z) - Domain penalisation for improved Out-of-Distribution Generalisation [1.979158763744267]
ドメインの一般化(DG)は、多種多様な未確認のターゲットドメインにおける堅牢なパフォーマンスを保証することを目的としている。
本稿では、複数のソースドメインからデータをサンプリングすると仮定した、オブジェクト検出のタスクのためのフレームワークを提案する。
より多くの注意を必要とするドメインを優先することで、私たちのアプローチはトレーニングプロセスのバランスを効果的に保ちます。
論文 参考訳(メタデータ) (2024-08-03T11:06:47Z) - ATTA: Anomaly-aware Test-Time Adaptation for Out-of-Distribution
Detection in Segmentation [22.084967085509387]
ドメインシフトとセマンティックシフトを協調的に扱うための二重レベルOOD検出フレームワークを提案する。
第1のレベルは、グローバルな低レベル機能を活用することで、画像内にドメインシフトが存在するかどうかを区別する。
第2のレベルは、高次特徴写像を高密度に利用することにより、セマンティックシフトを伴う画素を識別する。
論文 参考訳(メタデータ) (2023-09-12T06:49:56Z) - Summarization from Leaderboards to Practice: Choosing A Representation
Backbone and Ensuring Robustness [21.567112955050582]
自動評価と人的評価の両方において、BARTはPEGやT5よりも優れている。
システム出力のかなりのばらつきは、人間の評価でのみ捉えられる。
論文 参考訳(メタデータ) (2023-06-18T13:35:41Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Multi-level Consistency Learning for Semi-supervised Domain Adaptation [85.90600060675632]
半教師付きドメイン適応(SSDA)は、完全にラベル付けされたソースドメインから学習した知識をわずかにラベル付けされたターゲットドメインに適用することを目的としている。
SSDAのための多レベル一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-09T06:41:18Z) - Knowledge Distillation for BERT Unsupervised Domain Adaptation [2.969705152497174]
トレーニング済みの言語モデルであるBERTは、さまざまな自然言語処理タスクで大幅なパフォーマンス向上を実現している。
蒸留による逆順応法(AAD)を提案する。
ドメイン間感情分類におけるアプローチを30組のドメイン対で評価した。
論文 参考訳(メタデータ) (2020-10-22T06:51:24Z) - Adaptively-Accumulated Knowledge Transfer for Partial Domain Adaptation [66.74638960925854]
部分ドメイン適応(PDA)は、ソースドメインラベル空間がターゲットドメインを置き換えるとき、現実的で困難な問題を扱う。
本稿では,2つの領域にまたがる関連カテゴリを整合させる適応的知識伝達フレームワーク(A$2KT)を提案する。
論文 参考訳(メタデータ) (2020-08-27T00:53:43Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。