論文の概要: Systematic Evaluation of Knowledge Graph Repair with Large Language Models
- arxiv url: http://arxiv.org/abs/2507.22419v1
- Date: Wed, 30 Jul 2025 06:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.035531
- Title: Systematic Evaluation of Knowledge Graph Repair with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた知識グラフ修復の体系的評価
- Authors: Tung-Wei Lin, Gabe Fierro, Han Li, Tianzhen Hong, Pierluigi Nuzzo, Alberto Sangiovanni-Vinentelli,
- Abstract要約: 形状制約言語(SHACL)で定義された制約違反に関して,知識グラフ修復の品質を評価するための体系的アプローチを提案する。
提案手法は, 違反誘発動作(VIO)と呼ばれる新しい機構を用いて, 違反を系統的に発生させることにより, このギャップに対処する。
その結果、関連するSHACL制約を含む簡潔なプロンプトと、知識グラフからの重要な文脈情報の両方が、最高の性能をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 12.105264212919018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a systematic approach for evaluating the quality of knowledge graph repairs with respect to constraint violations defined in shapes constraint language (SHACL). Current evaluation methods rely on \emph{ad hoc} datasets, which limits the rigorous analysis of repair systems in more general settings. Our method addresses this gap by systematically generating violations using a novel mechanism, termed violation-inducing operations (VIOs). We use the proposed evaluation framework to assess a range of repair systems which we build using large language models. We analyze the performance of these systems across different prompting strategies. Results indicate that concise prompts containing both the relevant violated SHACL constraints and key contextual information from the knowledge graph yield the best performance.
- Abstract(参考訳): 本稿では,形状制約言語 (SHACL) で定義された制約違反に関して,知識グラフ修復の品質を評価するための体系的なアプローチを提案する。
現在の評価手法は、より一般的な環境での修理システムの厳密な分析を制限する「emph{ad hoc} データセット」に依存している。
本手法は, 違反発生操作(VIO)と呼ばれる新しい機構を用いて, 違反を系統的に発生させることにより, このギャップに対処する。
提案した評価フレームワークを用いて,大規模言語モデルを用いて構築した様々な修復システムを評価する。
我々はこれらのシステムの性能を、異なるプロンプト戦略で分析する。
その結果、関連するSHACL制約を含む簡潔なプロンプトと、知識グラフからの重要な文脈情報の両方が、最高の性能をもたらすことが示唆された。
関連論文リスト
- Understanding GUI Agent Localization Biases through Logit Sharpness [15.986679553468989]
MLLM(Multimodal large language model)は、GUIエージェントが言語を空間的アクションにグラウンドすることでオペレーティングシステムと対話することを可能にする。
有望な性能にもかかわらず、これらのモデルはしばしば、信頼性を損なう幻覚的局所化誤差を示す。
モデル予測を4つの異なるタイプに分類し,従来の精度測定値を超える不確実な障害モードを明らかにするための,きめ細かい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-18T12:55:35Z) - ReLearn: Unlearning via Learning for Large Language Models [64.2802606302194]
本研究では、効果的なアンラーニングのためのデータ拡張および微調整パイプラインであるReLearnを提案する。
このフレームワークでは、知識レベルの保存を測定するために、知識獲得率(KFR)と知識保持率(KRR)を導入している。
実験の結果,ReLearnは高品質な出力を保ちながら,目標とするリセットを実現することができた。
論文 参考訳(メタデータ) (2025-02-16T16:31:00Z) - A Closer Look at System Prompt Robustness [2.5525497052179995]
開発者は、重要なコンテキスト、出力フォーマット、パーソナリティ、ガードレール、コンテンツポリシー、安全対策を指定するためのシステムプロンプトに依存する。
実際には、モデルは関連するガードレールを考慮することを忘れたり、システムとユーザ間の矛盾する要求を解決するのに失敗することが多い。
OpenAIのGPTストアとHuggingFaceのHuggingChatから収集されたプロンプトに基づいて、現実的な新しい評価と微調整データセットを作成します。
論文 参考訳(メタデータ) (2025-02-15T18:10:45Z) - DSGram: Dynamic Weighting Sub-Metrics for Grammatical Error Correction in the Era of Large Language Models [39.493913608472404]
大規模言語モデル(LLM)に基づく文法的誤り訂正(GEC)モデルは、提供された金の参照から分岐する修正を生成することが多い。
この不一致は、従来の基準ベースの評価指標の信頼性を損なう。
本稿では,GECモデル,DSGram,Semantic Coherence,Edit Level,Fluencyを統合し,動的重み付け機構を活用する新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-17T11:54:16Z) - Translation Canvas: An Explainable Interface to Pinpoint and Analyze Translation Systems [16.102196839755823]
本稿では,翻訳システムの性能をピンポイントし解析するための説明可能なインタフェースであるTranslation Canvasを紹介する。
エラースパンを説明付きで強調し、システムの予測を選択的に表示することで、きめ細かい分析をサポートする。
人間による評価によると、Translation CanvasはCOMETやSacreBLEUパッケージよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T16:54:18Z) - GRAMMAR: Grounded and Modular Methodology for Assessment of Closed-Domain Retrieval-Augmented Language Model [6.106667677504318]
Retrieval-Augmented Generation (RAG) システムは、クローズドドメインや社内知識ベースを問うために様々な産業で広く利用されている。
これらのシステムを評価することは、クローズドドメインデータのプライベートな性質と、真理を検証できるクエリの不足により、大きな課題となる。
本稿では,グラウンドドデータ生成プロセスを含む評価フレームワークであるGRAMMARと,欠陥モジュールを効果的に特定する評価プロトコルを紹介する。
論文 参考訳(メタデータ) (2024-04-30T03:29:30Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - Indicators of Attack Failure: Debugging and Improving Optimization of
Adversarial Examples [29.385242714424624]
機械学習モデルの頑健さを敵の例に評価することは難しい問題である。
我々は、勾配に基づく攻撃の最適化において共通の障害を明らかにするための定量的指標のセットを定義する。
実験により,現在の対向ロバスト性評価を可視化し,デバッグし,改善するために,提案した障害指標が有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T06:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。