論文の概要: Temporal Decay of Co-Citation Predictability: A 20-Year Statute Retrieval Benchmark from 396M Ukrainian Court Citations
- arxiv url: http://arxiv.org/abs/2605.17639v1
- Date: Sun, 17 May 2026 20:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.292965
- Title: Temporal Decay of Co-Citation Predictability: A 20-Year Statute Retrieval Benchmark from 396M Ukrainian Court Citations
- Title(参考訳): コキューション予測の時間的低下:ウクライナの3億6600万件から20年間の法定検索基準
- Authors: Volodymyr Ovcharov,
- Abstract要約: 共励構造は法情報システムにおいて安定した検索信号を提供すると広く想定されている。
UA-StatuteRetrievalは20の年次スナップショットにまたがる共励予測可能性を測定するベンチマークである。
その結果,Adamic-Adar MRRは記事の固定セットで33%減少し,列車/テスト時分割で47%減少し,真の時相崩壊が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-citation structure is widely assumed to provide stable retrieval signal in legal information systems. We test this assumption longitudinally by constructing UA-StatuteRetrieval, a benchmark that measures co-citation predictability across 20 annual snapshots (2007-2026) of 396 million codex citations from 101 million Ukrainian court decisions. Using a leave-one-out protocol over the full bipartite citation graph, we find that Adamic-Adar MRR declines 33% on a fixed set of articles (from 0.43 to 0.29) and 47% under a train/test temporal split (from 0.51 to 0.27) confirming genuine temporal decay rather than compositional shift or evaluation artifact. The decay is non-uniform: criminal procedure maintains stable co-citation patterns (MRR ~0.40), while civil law degrades from 0.35 to 0.15, coinciding with the 2017 judicial reform. Hub articles (>100K citations) resist decay, but mid-frequency articles (1K-10K) -- the practical retrieval frontier lose half their predictability. A BM25 text baseline decays even faster (31%), and embedding drift analysis with E5-large reveals a 4.3% semantic shift in how articles are cited, providing a mechanistic explanation for the observed decay. The benchmark is released at https://huggingface.co/datasets/overthelex/ua-statute-retrieval.
- Abstract(参考訳): 共励構造は法情報システムにおいて安定した検索信号を提供すると広く想定されている。
UA-StatuteRetrievalは、ウクライナの裁判所決定から3億6600万コーデックスを引用した20の年次スナップショット(2007-2026)の共引用予測可能性を測定するベンチマークである。
完全二部式引用グラフ上では、Adamic-Adar MRRは固定された記事(0.43から0.29)に対して33%減少し、列車/テストの時間分割(0.51から0.27)の下で47%減少し、構成シフトや評価アーティファクトよりも真の時間減衰を確認している。
刑事訴訟は安定した共起パターン(MRR ~0.40)を維持し、民法は2017年の司法改革と一致して0.35から0.15に低下している。
ハブ記事(>100K引用)は崩壊に抵抗するが、中間周波数記事(1K-10K) -- 実用的な検索フロンティアは予測可能性の半分を失う。
BM25のテキストベースラインはさらに早く(31%)崩壊し、E5-largeによる埋め込みドリフト解析により、記事の引用方法が4.3%のセマンティックシフトを示した。
ベンチマークはhttps://huggingface.co/datasets/overthelex/ua-statute-retrievalで公開されている。
関連論文リスト
- Automatic Construction of a Legal Citation Graph from 100 Million Ukrainian Court Decisions: Large-Scale Extraction, Topological Analysis, and Ontology-Driven Clustering [0.0]
ウクライナの裁判所決定から抽出された1070万件の訴訟の端は、司法の引用構造が監督なしで法域の境界をコードしていることを示している。
完全SRレジストリから最初の大規模引用グラフ(9950万全文、1.1TB)を構築する。
論文 参考訳(メタデータ) (2026-05-14T19:42:20Z) - Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation [0.0]
テストモデルとEpoch AI能力指数の同時フロンティアを比較した。
これらの回答のギャップは、+5.53 ECI/年で拡大している。
提案されている改善には、APIアクセス助成金と報告フレームワークの編集執行が含まれる。
論文 参考訳(メタデータ) (2026-05-05T17:58:35Z) - Self-Aware Vector Embeddings for Retrieval-Augmented Generation: A Neuroscience-Inspired Framework for Temporal, Confidence-Weighted, and Relational Knowledge [0.0]
現代の検索拡張生成(RAG)システムは、ベクトル埋め込みを静的で文脈に依存しないアーティファクトとして扱う。
このフレームワークは,3つの明示的な特性 – 時間的認識,信頼の低下,関係的認識 – で密着な埋め込みを強化するものだ。
論文 参考訳(メタデータ) (2026-04-22T14:13:50Z) - Can Humans Tell? A Dual-Axis Study of Human Perception of LLM-Generated News [47.03825808787752]
人間は、ニュース記事が人によって書かれたか、あるいは大きな言語モデル(LLM)によって書かれたかを知ることができますか?
本稿では,人間対機械(人間対機械)と正当性判定(正当性対偽判定)を連続的なスケールで測定する研究プラットフォームであるJiceGPTを用いて,この問題を考察する。
筆者らは,(1) 被験者が人文テキストから機械生成物を確実に識別できないこと,(2) 認知疲労による約30回の連続的な評価の後,その精度が低下すること,の5つを報告した。
論文 参考訳(メタデータ) (2026-04-04T15:03:42Z) - Unmasking Algorithmic Bias in Predictive Policing: A GAN-Based Simulation Framework with Multi-City Temporal Analysis [0.0]
我々は、犯罪発生から警察との接触まで、人種的偏見が完全な執行パイプラインを通してどのように伝播しているかを示す。
ボルチモアでは、2019年には平均15714人まで、シカゴDIRでは黒人が0.22人の割合で検出されている。
さらに,条件付きタブラルガンCTGANデバイアス法は,検出率の一部を部分的に再分割するが,政策介入を伴わずとも構造的格差を排除できないことを示す。
論文 参考訳(メタデータ) (2026-03-19T14:55:32Z) - Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks [40.92390378341581]
APIの廃止やコード再構成といった技術的なコーパスの時間的変化は、既存のベンチマークを不安定にすることができる。
我々は2024年10月から2025年10月にかけて、FreshStackの2つの独立したコーパススナップショットを調査し、LangChainに関する質問に答える。
論文 参考訳(メタデータ) (2026-03-04T19:18:11Z) - From Black Box to Glass Box: Cross-Model ASR Disagreement to Prioto Review in Ambient AI Scribe Documentation [43.148402136307716]
異種ASRシステム間のクロスモデル不一致は、基準のない不確実性信号として機能する。
商用APIとオープンソースエンジンにまたがる8つのASRシステムを備えた,50の公開医療用オーディオクリップを転写した。
低アグリメント領域は内容の不一致に富み、高リスク質量のクインタイル全体では53.9%から73.9%に増加した。
論文 参考訳(メタデータ) (2026-03-02T13:02:13Z) - Enhancing Continual Learning for Software Vulnerability Prediction: Addressing Catastrophic Forgetting via Hybrid-Confidence-Aware Selective Replay for Temporal LLM Fine-Tuning [43.24339861841546]
本稿では,CVE-linked データセット上でのデコーダ型言語モデル (phi/phi-2 with LoRA) の微調整について検討する。
本研究では,ウィンドウオンリーおよび累積学習,リプレイベースライン,正規化ベースバリアントを含む8つの連続学習戦略を評価する。
ハイブリッドCASRはベースラインと比較してウィンドウ当たりのトレーニング時間を約17%削減する一方、累積トレーニングは15.9倍の計算コストでF1をわずかに増加させる(0.661)。
論文 参考訳(メタデータ) (2026-02-27T09:13:23Z) - Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment [0.0]
フルテキストのスクリーニングは、体系的なレビューの大きなボトルネックです。
私たちは、ファジィな決定問題として包摂/排除を再設計する、スケーラブルで監査可能なパイプラインを提示します。
論文 参考訳(メタデータ) (2025-08-17T17:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。