論文の概要: STCALIR: Semi-Synthetic Test Collection for Algerian Legal Information Retrieval
- arxiv url: http://arxiv.org/abs/2604.00731v1
- Date: Wed, 01 Apr 2026 10:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.94472
- Title: STCALIR: Semi-Synthetic Test Collection for Algerian Legal Information Retrieval
- Title(参考訳): STCALIR:アルジェリア法定情報検索のための半合成テストコレクション
- Authors: M'hamed Amine Hatem, Sofiane Batata, Amine Mammasse, Faiçal Azouaou,
- Abstract要約: 本稿では,生の法的文書から直接テストコレクションを生成するためのフレームワークであるSTCALIRを提案する。
パイプラインはクランフィールドのパラダイムに従い、トピック、コーパス、関連判断のコアコンポーネントを維持している。
我々は、Mr. TyDiベンチマークを用いて、STCALIRを検証し、その結果の半合成関連性判定が、人間による注釈付き評価に匹敵する精度を得ることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Test collections are essential for evaluating retrieval and re-ranking models. However, constructing such collections is challenging due to the high cost of manual annotation, particularly in specialized domains like Algerian legal texts, where high-quality corpora and relevance judgments are scarce. To address this limitation, we propose STCALIR, a framework for generating semi-synthetic test collections directly from raw legal documents. The pipeline follows the Cranfield paradigm, maintaining its core components of topics, corpus, and relevance judgments, while significantly reducing manual effort through automated multi-stage retrieval and filtering, achieving a 99% reduction in annotation workload. We validate STCALIR using the Mr. TyDi benchmark, demonstrating that the resulting semi-synthetic relevance judgments yield retrieval effectiveness comparable to human-annotated evaluations (Hit@10 \approx 0.785). Furthermore, system-level rankings derived from these labels exhibit strong concordance with human-based evaluations, as measured by Kendall's τ (0.89) and Spearman's \r{ho} (0.92). Overall, STCALIR offers a reproducible and cost-efficient solution for constructing reliable test collections in low-resource legal domains.
- Abstract(参考訳): テストコレクションは、検索と再ランク付けモデルを評価するのに不可欠である。
しかし、特に高品質のコーパスや関連判断が乏しいアルジェリア法典などの専門ドメインでは、手作業による注釈のコストが高いため、このようなコレクションの構築は困難である。
この制限に対処するため、生の法律文書から直接半合成テストコレクションを生成するためのフレームワークであるSTCALIRを提案する。
パイプラインはCranfieldパラダイムに従い、トピックやコーパス、関連判断のコアコンポーネントを維持しながら、自動多段階検索とフィルタリングによる手作業を大幅に削減し、アノテーションのワークロードを99%削減する。
我々は、Mr. TyDiベンチマークを用いて、STCALIRを検証し、その結果の半合成関連性判定が、人間による注釈付き評価(Hit@10 \approx 0.785)に匹敵する精度を得ることを示した。
さらに、これらのラベルに由来するシステムレベルのランキングは、ケンドールのτ (0.89) とスピアマンの \r{ho} (0.92) によって測定されるように、人間による評価と強く一致している。
全体として、STCALIRは、低リソースの法域で信頼性の高いテストコレクションを構築するための再現可能で費用効率のよいソリューションを提供する。
関連論文リスト
- Direct-Scoring NLG Evaluators Can Use Pairwise Comparisons Too [42.13843953705695]
本稿では,合成要約を用いて,テスト時に一対のマシンランキングとして機能するダイレクトスコーリング手法を提案する。
提案手法は, 軸平均試料レベルの相関関係から, 最先端のペアワイズ評価器と同等に動作することを示す。
論文 参考訳(メタデータ) (2025-09-05T18:48:34Z) - AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - YourBench: Easy Custom Evaluation Sets for Everyone [12.995134931278056]
YourBenchは、大規模言語モデル(LLM)を評価するための、新しいオープンソースのフレームワークである。
手動のアノテーションなしで、信頼性が高く、最新で、ドメインに適したベンチマークを安価に生成する。
我々はTemporaに基づくYourBenchライブラリ、Tempora-0325データセット、150k以上の質問応答ペア、およびすべての評価と推論トレースをリリースする。
論文 参考訳(メタデータ) (2025-04-02T15:40:24Z) - GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems [0.33748750222488655]
GenTRECは、Large Language Model (LLM)によって生成された文書から完全に構築された最初のテストコレクションである。
我々は、生成したプロンプトのみに関連する文書を考察する一方、他の文書とトピックのペアは非関連として扱われる。
結果として得られたGenTRECコレクションは96,196のドキュメント、300のトピック、および18,964の関連性"判断"で構成されている。
論文 参考訳(メタデータ) (2025-01-05T00:27:36Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - LLMs Can Patch Up Missing Relevance Judgments in Evaluation [56.51461892988846]
我々は、大きな言語モデル(LLM)を使って、不確定な文書を自動的にラベル付けします。
TREC DLトラックの関連性判定から関連文書をランダムにドロップすることで,穴の度合いの異なるシナリオをシミュレートする。
Vicuna-7B と GPT-3.5 Turbo の平均値に対して,Kendall tau の0.87 と 0.92 の相関式が得られた。
論文 参考訳(メタデータ) (2024-05-08T00:32:19Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。