Fugu-MT 論文翻訳(概要): Integrating Expert Knowledge into Logical Programs via LLMs

論文の概要: Integrating Expert Knowledge into Logical Programs via LLMs

arxiv url: http://arxiv.org/abs/2502.12275v1
Date: Mon, 17 Feb 2025 19:18:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.635891
Title: Integrating Expert Knowledge into Logical Programs via LLMs
Title（参考訳）: LLMによる論理プログラムへのエキスパート知識の統合
Authors: Franciszek Górski, Oskar Wysocki, Marco Valentino, Andre Freitas,
Abstract要約: ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
参考スコア（独自算出の注目度）: 3.637365301757111
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper introduces ExKLoP, a novel framework designed to evaluate how effectively Large Language Models (LLMs) integrate expert knowledge into logical reasoning systems. This capability is especially valuable in engineering, where expert knowledge-such as manufacturer-recommended operational ranges-can be directly embedded into automated monitoring systems. By mirroring expert verification steps, tasks like range checking and constraint validation help ensure system safety and reliability. Our approach systematically evaluates LLM-generated logical rules, assessing both syntactic fluency and logical correctness in these critical validation tasks. We also explore the models capacity for self-correction via an iterative feedback loop based on code execution outcomes. ExKLoP presents an extensible dataset comprising 130 engineering premises, 950 prompts, and corresponding validation points. It enables comprehensive benchmarking while allowing control over task complexity and scalability of experiments. We leverage the synthetic data creation methodology to conduct extensive empirical evaluation on a diverse set of LLMs including Llama3, Gemma, Mixtral, Mistral, and Qwen. Results reveal that while models generate nearly perfect syntactically correct code, they frequently exhibit logical errors in translating expert knowledge. Furthermore, iterative self-correction yields only marginal improvements (up to 3%). Overall, ExKLoP serves as a robust evaluation platform that streamlines the selection of effective models for self-correcting systems while clearly delineating the types of errors encountered. The complete implementation, along with all relevant data, is available at GitHub.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) が専門家の知識を論理的推論システムにいかに効果的に統合するかを評価するための新しいフレームワークであるExKLoPを紹介する。この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。専門家の検証手順を反映することにより、レンジチェックや制約検証といったタスクがシステムの安全性と信頼性を保証する。提案手法は,LLM生成論理規則を体系的に評価し,これらの重要な検証タスクにおいて,構文的流速と論理的正当性の両方を評価する。また、コード実行結果に基づいた反復的なフィードバックループを通じて、自己補正のためのモデルキャパシティについても検討する。 ExKLoPは、130のエンジニアリング前提、950のプロンプト、およびそれに対応する検証ポイントからなる拡張可能なデータセットを提供する。タスクの複雑さと実験のスケーラビリティをコントロールしながら、包括的なベンチマークを可能にする。本研究では,Llama3,Gemma,Mixtral,Mistral,Qwenなどの多種多様なLLMに対して,合成データ生成手法を用いて広範な実験評価を行う。その結果、モデルはほぼ完璧な構文的正しいコードを生成するが、専門家の知識を翻訳する際に論理的な誤りがしばしば現れることが明らかになった。さらに、反復的な自己補正は限界的な改善(最大3%)しか得られない。全体として、ExKLoPは自己修正システムの効率的なモデルの選択を合理化しつつ、遭遇したエラーのタイプを明確に記述する堅牢な評価プラットフォームとして機能する。すべての関連するデータとともに、完全な実装はGitHubで公開されている。

関連論文リスト

Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability [3.4354830835082195]
Meeseeksは反復的なフィードバックプロセスを通じて現実的な人間とLLMのインタラクションをシミュレートする。この設計により、モデルは特定の要求障害に基づいて自己修正できる。
論文参考訳（メタデータ） (2025-04-30T13:28:19Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T07:43:12Z)
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文参考訳（メタデータ） (2025-02-24T07:02:31Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction [9.44858963874474]
CoT(Chain-of-Thought)により、LLM(Large Language Models)の複雑な推論能力が向上する。我々は,これらの課題に対処するために,自己整合性とマルチエージェントの議論システムを用いたCoTリレーラを提案する。様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-08-25T21:20:17Z)
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文参考訳（メタデータ） (2024-06-24T15:16:45Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。 MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文参考訳（メタデータ） (2024-02-18T04:28:28Z)
Adapting LLMs for Efficient, Personalized Information Retrieval: Methods and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文参考訳（メタデータ） (2023-11-21T02:01:01Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。