論文の概要: OAEI-LLM-T: A TBox Benchmark Dataset for Understanding LLM Hallucinations in Ontology Matching Systems
- arxiv url: http://arxiv.org/abs/2503.21813v1
- Date: Tue, 25 Mar 2025 18:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.402138
- Title: OAEI-LLM-T: A TBox Benchmark Dataset for Understanding LLM Hallucinations in Ontology Matching Systems
- Title(参考訳): OAEI-LLM-T:オントロジーマッチングシステムにおけるLLM幻覚理解のためのTBoxベンチマークデータセット
- Authors: Zhangcheng Qiang,
- Abstract要約: 大規模言語モデル(LLM)を用いた下流タスクでは幻覚は避けられない
我々は、OAEI-LLM-Tと呼ばれる新しいベンチマークデータセットを導入し、OMタスクを実行する異なるLLMの幻覚をキャプチャする。
これらのOM特異的幻覚は、慎重に2つの主要なカテゴリーと6つのサブカテゴリに分類される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations are inevitable in downstream tasks using large language models (LLMs). While addressing hallucinations becomes a substantial challenge for LLM-based ontology matching (OM) systems, we introduce a new benchmark dataset called OAEI-LLM-T. The dataset evolves from the TBox (i.e. schema-matching) datasets in the Ontology Alignment Evaluation Initiative (OAEI), capturing hallucinations of different LLMs performing OM tasks. These OM-specific hallucinations are carefully classified into two primary categories and six sub-categories. We showcase the usefulness of the dataset in constructing the LLM leaderboard and fine-tuning foundational LLMs for LLM-based OM systems.
- Abstract(参考訳): 大規模な言語モデル(LLM)を使用した下流タスクでは、幻覚は避けられない。
LLMベースのオントロジーマッチング(OM)システムでは幻覚に対処することが大きな課題となっているが、OAEI-LLM-Tと呼ばれる新しいベンチマークデータセットを導入する。
データセットは、オントロジーアライメント評価イニシアチブ(OAEI)のTBox(スキーママッチング)データセットから進化し、OMタスクを実行する異なるLLMの幻覚をキャプチャする。
これらのOM特異的幻覚は、慎重に2つの主要なカテゴリーと6つのサブカテゴリに分類される。
LLM ベースの OM システムのための LLM リーダーボードと微調整基礎 LLM の構築におけるデータセットの有用性を示す。
関連論文リスト
- How to Steer LLM Latents for Hallucination Detection? [29.967245405976072]
本稿では、推論中に表現空間を再評価し、真理と幻覚の出力を分離するステアリングベクトルを提案する。
我々の2段階のフレームワークは、まず、ラベル付き例題の小さなセットでSVを訓練し、コンパクトで分離されたクラスタを形成します。
その後、ラベルなしのLLM世代で模範集合を拡張し、疑似ラベル付けに最適なトランスポートベースのアルゴリズムと信頼に基づくフィルタリングプロセスを組み合わせた。
論文 参考訳(メタデータ) (2025-03-01T19:19:34Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching [8.732396482276332]
大規模言語モデル(LLM)の幻覚は、オントロジーマッチング(OM)で例外なく、ドメイン固有の下流タスクで一般的に発生する。
OAEI-LLMデータセットは、オントロジーアライメント評価イニシアチブ(OAEI)データセットの拡張版であり、OMタスクにおけるLSM固有の幻覚を評価する。
論文 参考訳(メタデータ) (2024-09-21T06:49:34Z) - HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。
野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文 参考訳(メタデータ) (2024-03-07T08:25:46Z) - OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination
Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。
SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文 参考訳(メタデータ) (2024-02-20T11:01:39Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。