論文の概要: HELEA: Hard-Negative Benchmark and LLM-based Reranking for Robust Entity Alignment
- arxiv url: http://arxiv.org/abs/2605.28308v1
- Date: Wed, 27 May 2026 11:04:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.992905
- Title: HELEA: Hard-Negative Benchmark and LLM-based Reranking for Robust Entity Alignment
- Title(参考訳): HELEA:ロバストエンティティアライメントのためのハード負ベンチマークとLLMベースのリグレード
- Authors: Yoonjin Jang, Junwoo Kim, Youngjoong Ko,
- Abstract要約: 品質管理評価ベンチマークを同時に生成する同名のハード負拡張戦略を提案する。
また,HELEAは (i) エンティティ検索エンコーダを1ホップKGコンテキストで学習し, (ii) LLM ベースの再評価を追加トレーニングなしで行うための2段階のフレームワークである。
HELEAはDW-HN29KでF1 0.967を達成し、Hit@1 0.993を標準DW-15Kで維持する。
- 参考スコア(独自算出の注目度): 16.009670110259506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity Alignment (EA) is essential for knowledge graph (KG) fusion, but existing benchmarks often allow models to exploit name overlap rather than relational structure. This makes it difficult to evaluate whether models can reject same-name entities that refer to different real-world objects. Our primary contribution is a same-name hard-negative augmentation strategy that simultaneously yields quality-controlled evaluation benchmarks (DW-HN29K, DY-HN27K) and augmented training corpora (DW-Train, DY-Train), by mining same-name but distinct entity pairs from KG name-collision groups. We further introduce HELEA, a two-stage framework integrating (i) entity encoder retrieval trained on hard-negative-augmented training corpora with 1-hop KG context, and (ii) LLM-based reranking without additional training. Experiments show that name-dependent baselines collapse to near-random performance on our hard-negative benchmarks, while HELEA achieves F1 0.967 on DW-HN29K while maintaining Hit@1 0.993 on standard DW-15K.
- Abstract(参考訳): エンティティアライメント(EA)は知識グラフ(KG)の融合には不可欠であるが、既存のベンチマークではモデルがリレーショナル構造ではなく名前の重複を活用できることが多い。
これにより、モデルが異なる現実世界のオブジェクトを参照する同名エンティティを拒否できるかどうかを評価するのが難しくなる。
我々の主な貢献は、品質管理評価ベンチマーク(DW-HN29K,DY-HN27K)と強化トレーニングコーパス(DW-Train,DY-Train)を同時に生成する同名のハード負の強化戦略である。
さらに2段階統合フレームワークであるHELEAを紹介します。
i) 1ホップKGコンテキストを用いた強陰性強化訓練コーパスを用いたエンティティエンコーダの検索
(二)追加の訓練を受けずにLLMを基調に格上げすること。
HELEAはDW-HN29KでF1 0.967を達成し、Hit@1 0.993を標準DW-15Kで維持する。
関連論文リスト
- AI Cartography: Mapping the Latent Landscape of AI Benchmark Ecosystems [20.174278188532096]
AIベンチマークエコシステムの潜伏状況を測定するためのフレームワークを紹介します。
The Open LLM Leaderboardから4000以上のモデルに確認因子分析(CFA)と一般化可能性理論を適用して、ランキング分散の源泉を分解する。
ベンチマークランキングをどのように信頼するか、ベンチマーク設計をどのように改善できるかを判断するために、実行可能な診断を提供する。
論文 参考訳(メタデータ) (2026-05-24T21:59:08Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - Round-trip Reinforcement Learning: Self-Consistent Training for Better Chemical LLMs [51.29260537017623]
大規模言語モデル (LLM) は計算化学の汎用基盤モデルとして登場しつつある。
これらのモデルは、しばしば往復一貫性を欠いている。
本稿では,その一貫性を向上させるためにモデルをトレーニングする新しいフレームワークであるRound-Trip Reinforcement Learning(RTRL)を紹介する。
論文 参考訳(メタデータ) (2025-10-01T23:58:58Z) - J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。
私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。
次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2025-05-15T14:05:15Z) - Scaling Sparse and Dense Retrieval in Decoder-Only LLMs [20.173669986209024]
大規模言語モデル(LLM)のスケーリングは,検索モデルの性能向上に大きな可能性を示している。
従来の研究は、比較損失(CL)を訓練した高密度な検索に重点を置いてきた。
スパース検索モデルは、インドメイン(MSMARCO, TREC DL)とアウト・オブ・ドメイン(BEIR)ベンチマークの両方において、密集検索を一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-21T15:28:26Z) - ACCORD: Closing the Commonsense Measurability Gap [16.572584339052753]
ACCORDは、大規模言語モデル(LLM)の共通理解基盤と推論能力の分離のためのフレームワークである
形式的要素をコモンセンス推論に導入し、典型的な 1 または 2 ホップを超えて、推論の複雑さを明示的に制御し、定量化する。
任意の推論複雑性のベンチマークを自動的に生成するので、将来のLLMの改善に合わせてスケールすることができる。
論文 参考訳(メタデータ) (2024-06-04T22:08:24Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。