Fugu-MT 論文翻訳(概要): Evaluating LLM-Based Process Explanations under Progressive Behavioral-Input Reduction

論文の概要: Evaluating LLM-Based Process Explanations under Progressive Behavioral-Input Reduction

arxiv url: http://arxiv.org/abs/2510.09732v1
Date: Fri, 10 Oct 2025 13:10:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:29.597659
Title: Evaluating LLM-Based Process Explanations under Progressive Behavioral-Input Reduction
Title（参考訳）: プログレッシブ・ビヘイビア・インプット・リダクション下におけるLCMプロセス記述の評価
Authors: P. van Oerle, R. H. Bemthuis, F. A. Bukhsh,
Abstract要約: 大規模言語モデル(LLM)は、イベントログから発見されたプロセスモデルの説明を生成するために、ますます使われています。本報告では, 進行的行動・入出力低下下における説明品質の評価について述べる。合成ログ上では、説明品質は適度な削減の下で大部分が維持され、実用的なコスト品質のトレードオフが示される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly used to generate textual explanations of process models discovered from event logs. Producing explanations from large behavioral abstractions (e.g., directly-follows graphs or Petri nets) can be computationally expensive. This paper reports an exploratory evaluation of explanation quality under progressive behavioral-input reduction, where models are discovered from progressively smaller prefixes of a fixed log. Our pipeline (i) discovers models at multiple input sizes, (ii) prompts an LLM to generate explanations, and (iii) uses a second LLM to assess completeness, bottleneck identification, and suggested improvements. On synthetic logs, explanation quality is largely preserved under moderate reduction, indicating a practical cost-quality trade-off. The study is exploratory, as the scores are LLM-based (comparative signals rather than ground truth) and the data are synthetic. The results suggest a path toward more computationally efficient, LLM-assisted process analysis in resource-constrained settings.
Abstract（参考訳）: 大規模言語モデル(LLM)は、イベントログから発見されたプロセスモデルのテキスト説明を生成するために、ますます使われています。大規模行動抽象化(例えば、直接フォローグラフやペトリネット)からの説明は、計算的に高価である。本報告では, 段階的動作量削減に基づく説明品質の探索的評価を行い, 固定ログのより小さなプレフィックスからモデルが発見される。パイプライン (i)複数の入力サイズでモデルを検出する。 (二)LCMに説明書作成を促し、 (iii) 完全性、ボトルネック識別、改善を提案するために第2のLSMを使用する。合成ログ上では、説明品質は適度な削減の下で大部分が維持され、実用的なコスト品質のトレードオフが示される。この研究は探索的であり、スコアはLLMに基づいており(地上の真実ではなく、比較信号)、データは合成されている。これらの結果から,資源制約条件下でのLCM支援プロセス解析への道筋が示唆された。

関連論文リスト

R-Log: Incentivizing Log Analysis Capability in LLMs via Reasoning-based Reinforcement Learning [19.713020881817588]
R-Logは、人間のエンジニアの構造的、ステップバイステップの分析プロセスを反映した、推論に基づく新しいパラダイムである。 R-Logは、手動のO&Mプラクティスから13の戦略によってガイドされた、2k以上の推論トラジェクトリのキュレートデータセットで最初にコールドスタートされる。実世界のログに対する実証的な評価は、R-Logが5つのログ解析タスクで既存のメソッドより優れていることを示している。
論文参考訳（メタデータ） (2025-09-30T09:19:31Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
The Graph's Apprentice: Teaching an LLM Low Level Knowledge for Circuit Quality Estimation [34.37154877681809]
本研究は,HDLコードから直接回路品質を推定するための予測ネットワークを用いて,大規模言語モデル(LLM)を拡張することを提案する。性能を向上させるために、Look-Up Table (LUT)グラフでトレーニングされたグラフニューラルネットワーク(GNN)の埋め込みを使用してモデルを正規化する。提案手法は,既存のベンチマークOpenABCDにおけるRTLレベルの推定手法と比較して,優れた性能を示す。
論文参考訳（メタデータ） (2024-10-30T04:20:10Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
In-Context Symbolic Regression: Leveraging Large Language Models for Function Discovery [5.2387832710686695]
本稿では,記号回帰のタスクにLarge Language Models(LLM)を利用する,最初の包括的フレームワークを紹介する。 In-Context Symbolic Regression (ICSR) は、外部LLMで関数形式を反復的に洗練し、その係数を外部LLMで決定するSR手法である。以上の結果から,LLMは与えられたデータに適合するシンボリック方程式の発見に成功し,最高のSRベースラインの総合性能を4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-04-29T20:19:25Z)
Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文参考訳（メタデータ） (2024-04-01T06:01:17Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Direct loss minimization algorithms for sparse Gaussian processes [9.041035455989181]
本論文は,疎ガウス過程の予測損失を最小限に抑えるために後部を最適化する直接損失(DLM)を徹底的に検討する。非共役ケースにおけるDLMの適用は、ログロスDLMの目的における期待の最小化がしばしば引き起こされるため、より複雑である。
論文参考訳（メタデータ） (2020-04-07T02:31:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。