Fugu-MT 論文翻訳(概要): OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching

論文の概要: OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching

arxiv url: http://arxiv.org/abs/2409.14038v3
Date: Mon, 21 Oct 2024 12:54:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 03:55:36.856621
Title: OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching
Title（参考訳）: OAEI-LLM:オントロジーマッチングにおける大規模言語モデル幻覚理解のためのベンチマークデータセット
Authors: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang,
Abstract要約: 大規模言語モデル(LLM)の幻覚は、オントロジーマッチング(OM)で例外なく、ドメイン固有の下流タスクで一般的に発生する。 OAEI-LLMデータセットは、オントロジーアライメント評価イニシアチブ(OAEI)データセットの拡張版であり、OMタスクにおけるLSM固有の幻覚を評価する。
参考スコア（独自算出の注目度）: 8.732396482276332
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hallucinations of large language models (LLMs) commonly occur in domain-specific downstream tasks, with no exception in ontology matching (OM). The prevalence of using LLMs for OM raises the need for benchmarks to better understand LLM hallucinations. The OAEI-LLM dataset is an extended version of the Ontology Alignment Evaluation Initiative (OAEI) datasets that evaluate LLM-specific hallucinations in OM tasks. We outline the methodology used in dataset construction and schema extension, and provide examples of potential use cases.
Abstract（参考訳）: 大規模言語モデル(LLM)の幻覚は、オントロジーマッチング(OM)で例外なく、ドメイン固有の下流タスクで一般的に発生する。 LLMをOMに使用する頻度は、LLM幻覚をよりよく理解するためのベンチマークの必要性を高める。 OAEI-LLMデータセットは、オントロジーアライメント評価イニシアチブ(OAEI)データセットの拡張版であり、OMタスクにおけるLSM固有の幻覚を評価する。データセットの構築とスキーマ拡張で使用される方法論を概説し、潜在的なユースケースの例を示す。

関連論文リスト

A Hybrid Framework for Subject Analysis: Integrating Embedding-Based Regression Models with Large Language Models [6.780917788630485]
大規模言語モデル(LLM)は分類や要約作業に広く用いられているが、対象分析を行う能力は乏しい。埋め込み型MLモデルをLLMと統合するハイブリッドフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-19T15:32:46Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Hallucination Detection in LLMs via Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文参考訳（メタデータ） (2025-04-14T10:06:27Z)
OAEI-LLM-T: A TBox Benchmark Dataset for Understanding LLM Hallucinations in Ontology Matching Systems [0.0]
大規模言語モデル(LLM)を用いた下流タスクでは幻覚は避けられない我々は、OAEI-LLM-Tと呼ばれる新しいベンチマークデータセットを導入し、OMタスクを実行する異なるLLMの幻覚をキャプチャする。これらのOM特異的幻覚は、慎重に2つの主要なカテゴリーと6つのサブカテゴリに分類される。
論文参考訳（メタデータ） (2025-03-25T18:20:04Z)
ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models [15.156359255401812]
本稿では,大規模言語モデル(MLLM)におけるオブジェクト存在幻覚を評価するためのオープンセット動的プロトコルODEを紹介する。本フレームワークでは,実単語概念間の関連をモデル化し,汎用シナリオとドメイン固有シナリオの両方に新たなサンプルを生成する。実験の結果, MLLMはODE生成試料よりも高い幻覚率を示し, データ汚染を効果的に回避できることがわかった。
論文参考訳（メタデータ） (2024-09-14T05:31:29Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文参考訳（メタデータ） (2024-03-07T08:25:46Z)
HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文参考訳（メタデータ） (2024-02-25T22:23:37Z)
Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文参考訳（メタデータ） (2024-02-21T00:44:04Z)
RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models [9.465753274663061]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文参考訳（メタデータ） (2023-12-31T04:43:45Z)
AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。 MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文参考訳（メタデータ） (2023-11-13T15:25:42Z)
Local Large Language Models for Complex Structured Medical Tasks [0.0]
本稿では,大規模言語モデルの言語推論機能と,複雑なドメイン特化タスクに取り組むための局所学習の利点を組み合わせたアプローチを提案する。具体的には,病理報告から構造化条件コードを抽出し,そのアプローチを実証する。
論文参考訳（メタデータ） (2023-08-03T12:36:13Z)
An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文参考訳（メタデータ） (2023-04-17T17:13:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。