論文の概要: Retrieving Semantically Similar Decisions under Noisy Institutional Labels: Robust Comparison of Embedding Methods
- arxiv url: http://arxiv.org/abs/2512.05681v1
- Date: Fri, 05 Dec 2025 12:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.028486
- Title: Retrieving Semantically Similar Decisions under Noisy Institutional Labels: Robust Comparison of Embedding Methods
- Title(参考訳): ノイズのある制度ラベルに基づく意味的類似判断の検索:埋め込み法の比較
- Authors: Tereza Novotna, Jakub Harasta,
- Abstract要約: OpenAI(General-purpose Embedder)は,3万の意思決定に対して,ドメイン固有のBERTトレーニングをゼロから実行する。
我々のフレームワークは、ノイズの多い金のデータセットで評価するのに十分な頑健である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving case law is a time-consuming task predominantly carried out by querying databases. We provide a comparison of two models in three different settings for Czech Constitutional Court decisions: (i) a large general-purpose embedder (OpenAI), (ii) a domain-specific BERT-trained from scratch on ~30,000 decisions using sliding windows and attention pooling. We propose a noise-aware evaluation including IDF-weighted keyword overlap as graded relevance, binarization via two thresholds (0.20 balanced, 0.28 strict), significance via paired bootstrap, and an nDCG diagnosis supported with qualitative analysis. Despite modest absolute nDCG (expected under noisy labels), the general OpenAI embedder decisively outperforms the domain pre-trained BERT in both settings at @10/@20/@100 across both thresholds; differences are statistically significant. Diagnostics attribute low absolutes to label drift and strong ideals rather than lack of utility. Additionally, our framework is robust enough to be used for evaluation under a noisy gold dataset, which is typical when handling data with heterogeneous labels stemming from legacy judicial databases.
- Abstract(参考訳): ケースローの検索は、主にデータベースのクエリによって行われる時間を要するタスクである。
チェコ憲法裁判所の決定のための3つの異なる設定における2つのモデルの比較を提供する。
(i)大型汎用インバータ(OpenAI)
(ii)スクラッチからトレーニングしたドメイン固有のBERTで,スライディングウィンドウとアテンションプールを使用して3万の判定を行う。
IDF重み付きキーワード重み付けによる雑音認識評価,2つのしきい値(0.20バランス,0.28厳格)によるバイナライゼーション,ペアブートストラップによる重要度,質的解析によるnDCG診断などを提案する。
質素な絶対的なnDCG(ノイズラベルの下で予測される)にもかかわらず、一般のOpenAI埋め込みは、両方のしきい値の@10/@20/@100で、ドメイン事前訓練されたBERTを決定的に上回っている。
診断は、実用性に欠けるよりも、ラベルドリフトと強い理想に低い絶対性がある。
さらに,本フレームワークは,従来の司法データベースから派生した異種ラベルによるデータ処理に典型的である,ノイズの多い金のデータセットに基づく評価に十分な堅牢性を有している。
関連論文リスト
- TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - A robust three-way classifier with shadowed granular-balls based on justifiable granularity [53.39844791923145]
我々は、不確実なデータのために、影付きGBの頑健な3方向分類器を構築した。
本モデルでは,不確実なデータ管理を実証し,分類リスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-07-03T08:54:45Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Guiding Pseudo-labels with Uncertainty Estimation for Test-Time
Adaptation [27.233704767025174]
Test-Time Adaptation (TTA) は、Unsupervised Domain Adaptation (UDA) の特定のケースであり、モデルがソースデータにアクセスせずにターゲットドメインに適合する。
本稿では,損失再重み付け戦略に基づくTTA設定のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-07T10:04:55Z) - Lifting Weak Supervision To Structured Prediction [12.219011764895853]
弱監督 (WS) は、容易に得られるがノイズの多いラベル推定を集約することで擬似ラベルを生成する、豊富な手法のセットである。
擬ユークリッド埋め込みとテンソル分解に基づく弱監督手法を提案する。
ノイズのあるラベルを持つ構造化予測において頑健性を保証するとみなすこの結果のいくつかは、独立した関心事である可能性がある。
論文 参考訳(メタデータ) (2022-11-24T02:02:58Z) - A Framework for Cluster and Classifier Evaluation in the Absence of
Reference Labels [23.658440146240025]
本稿では, 略基底真理補正 (AGTR) と呼ばれる参照ラベルを用いたサプリメントを提案する。
クラスタリングアルゴリズムの評価に使用される特定のメトリクスのバウンダリは、参照ラベルなしで計算できることを実証する。
また、AGTRを用いて、疑わしい品質のデータセットから得られた不正確な評価結果を特定する手順も導入する。
論文 参考訳(メタデータ) (2021-09-23T03:42:01Z) - BiSTF: Bilateral-Branch Self-Training Framework for Semi-Supervised
Large-scale Fine-Grained Recognition [28.06659482245647]
半教師付きファイングラインド認識は、データ不均衡、高いクラス間類似性、ドメインミスマッチによる課題である。
本稿では,バイラテラルブランチ・セルフトレーニング・フレームワーク (Bilateral-Branch Self-Training Framework, BiSTF) を提案する。
BiSTFはSemi-iNatデータセット上で既存の最先端SSLよりも優れています。
論文 参考訳(メタデータ) (2021-07-14T15:28:54Z) - Approximating Instance-Dependent Noise via Instance-Confidence Embedding [87.65718705642819]
マルチクラス分類におけるラベルノイズは、学習システムの展開にとって大きな障害である。
インスタンス依存ノイズ(IDN)モデルを調査し、IDNの効率的な近似を提案し、インスタンス固有のラベル破損を捕捉する。
論文 参考訳(メタデータ) (2021-03-25T02:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。