論文の概要: Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling
- arxiv url: http://arxiv.org/abs/2606.02837v1
- Date: Mon, 01 Jun 2026 20:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.578085
- Title: Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling
- Title(参考訳): FOLIOとMALLSの修正: 検証アノテーションとLLM支援フレームワーク
- Authors: Andrea Brunello, Cristian Curaba, Luca Geatti, Michele Mignani, Angelo Montanari, Nicola Saccomanno,
- Abstract要約: 本研究では,textsfFOLIO と textMALLS テストインスタンスのサブセットの検証分割を系統的に検証する。
第2のコントリビューションは、そのようなデータセットの修正された基底真理の開発とリリースです。
これらの結果から,NL-to-FOLデータセットを手作業でレビューする上で,人間を支援するLLMベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.516686671273755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate translation from Natural Language to First-Order Logic (NL-to-FOL) underpins neurosymbolic AI systems and Natural Language Inference (NLI), making the quality of NL-to-FOL benchmarks essential -- yet these datasets have never been rigorously audited. Our first contribution is to present a systematic human inspection of the validation split of \textsf{FOLIO} and a subset of \textsf{MALLS} test instances, finding that approximately 39% and 36% of entries, respectively, contain incorrect FOL formalizations (i.e., ground truth labels), with additional rates of ambiguous NL sentences (16.4% and 48%) and incorrect NLI labels in \textsf{FOLIO} (8.4%). Our second contribution is to develop and release corrected ground truths for such datasets, showing that annotation errors distort model evaluation on a reference benchmark task: testing three state-of-the-art LLMs (Gemma~4 31B-it, Qwen3-30B-A3B, and GPT-4o-mini) with the corrected ground truths yields accuracy gains from +9 to +22 percentage points. Motivated by these findings, we propose an LLM-based framework to support humans in manual reviewing NL-to-FOL datasets. By directing reviewers toward the most error-prone instances, we empirically show that it is possible to achieve 90% dataset accuracy after reviewing fewer than 24% of instances, compared to over 70% required by unguided review. We release all human-verified annotations and the code for our framework.
- Abstract(参考訳): 自然言語から一階述語論理(NL-to-FOL)への正確な翻訳は、ニューロシンボリックAIシステムと自然言語推論(NLI)を支えるもので、NL-to-FOLベンチマークの品質が不可欠である。
最初のコントリビューションは、 \textsf{FOLIO} と \textsf{MALLS} テストインスタンスのサブセットの検証を体系的に行うことであり、それぞれ 39% と 36% のエントリが、不正な FOL の形式化(すなわち、基底真理ラベル)、不明瞭な NL 文の付加率(16.4% と 48%)、不正な NLI ラベルを \textsf{FOLIO} (8.4%) に含んでいることを発見した。
第2のコントリビューションは、これらのデータセットに対する修正された基底真理の開発とリリースであり、アノテーションエラーが参照ベンチマークタスクでモデル評価を歪ませていることを示す: 3つの最先端LCM(Gemma~4 31B-it, Qwen3-30B-A3B, GPT-4o-mini)を補正された基底真理でテストすると、+9から+22ポイントの精度が向上する。
これらの結果から,NL-to-FOLデータセットを手作業でレビューする上で,人間を支援するLLMベースのフレームワークを提案する。
最もエラーを起こしやすいインスタンスにリビューアを向けることで、24%未満のインスタンスをレビューした後、90%のデータセット精度を達成できることを実証的に示す。
すべての人が検証したアノテーションとフレームワークのコードをリリースします。
関連論文リスト
- LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics [21.604030114864642]
オフザシェルフの大規模言語モデル(LLM)は、テキストアノテーションの自動化にますます利用されている。
デンマークのテキスト分類データセットであるRAB-Credを紹介した。
本研究は,21個のオープンウェイトモデルと30個のシステム・ユーザ・プロンプトの組み合わせをベンチマークし,ゼロショットと少数ショットの分類におけるモデルとプロンプトの選択の効果を体系的に評価する。
論文 参考訳(メタデータ) (2026-05-13T12:07:47Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning [84.52940628494879]
大規模言語モデル(LLM)は現在、すべてのプロンプトに応答する。
LLMは、知識や能力の欠如によって、誤った答えを生み出すことができる。
本稿では,その正確性に自信を持った場合にのみコンテンツを生成するためのLCMのポストトレーニングを提案する。
論文 参考訳(メタデータ) (2025-06-04T15:16:21Z) - Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction [4.304383298057423]
本稿では, 誤り前検出, 連鎖型サブタスク反復補正, 推論プロセス検証の3段階からなる信頼性補正フレームワーク(RLLM-CF)を提案する。
AISHELL-1, AISHELL-2, Librispeechの実験により, このフレームワークによって強化されたGPT-4oモデルは, CER/WERの相対減少率21%, 11%, 9%, 11.4%を達成した。
論文 参考訳(メタデータ) (2025-05-30T08:40:49Z) - Correcting FLORES Evaluation Dataset for Four African Languages [2.552967468434151]
オリジナルのデータセットは低リソース言語をカバーしているが、様々な不整合や不正確性を示した。
ネイティブスピーカーによる綿密なレビュープロセスを通じて、いくつかの修正が特定され、実装された。
我々の補正によって、データの言語的正確性と信頼性が向上すると考えている。
論文 参考訳(メタデータ) (2024-09-01T06:13:03Z) - Knowledge-based Consistency Testing of Large Language Models [2.9699290794642366]
我々は,大規模言語モデル(LLM)の不整合性と知識ギャップを系統的に公開し,測定する。
テストケースを構築するために知識グラフを活用する自動テストフレームワーク(KonTest)を提案する。
さらに, GPT3.5は知識構築において60%-68%しか有効ではないため, 知識ベース一貫性試験には適さないことを示した。
論文 参考訳(メタデータ) (2024-07-03T11:16:54Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - FOLIO: Natural Language Reasoning with First-Order Logic [147.50480350846726]
我々は、自然言語(NL)における推論のための人間注釈付き、論理的に複雑で多様なデータセットであるFOLIOを提示する。
FOLIOは1,430の例(一意の結論)で構成され、それぞれが487の前提のうちの1つと組み合わせて、それぞれの結論の妥当性を導出的に推論する。
NL推論とNL-FOL変換の両方において、複数の最先端言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-09-02T06:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。