論文の概要: Transforming User Defined Criteria into Explainable Indicators with an Integrated LLM AHP System
- arxiv url: http://arxiv.org/abs/2601.05267v1
- Date: Wed, 12 Nov 2025 06:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.536995
- Title: Transforming User Defined Criteria into Explainable Indicators with an Integrated LLM AHP System
- Title(参考訳): LLM AHPシステムを用いたユーザ定義基準を説明可能な指標に変換する
- Authors: Geonwoo Bang, Dongho Kim, Moohong Min,
- Abstract要約: 本稿では,LLMスコアリングと解析階層プロセスを組み合わせた解釈可能な集約フレームワークを提案する。
本手法は, LLMを判定として用い, ジェネネラルシャノン距離を用いて識別力を測定し, AHP対比較行列を用いて統計的に接地した重みを導出する。
Amazonのレビュー品質評価と抑うつ関連テキスト評価の実験は、我々のアプローチが同等の予測能力を維持しながら、高い説明可能性と運用効率を実現し、リアルタイムのレイテンシに敏感なWebサービスに適していることを実証している。
- 参考スコア(独自算出の注目度): 2.3322477552758234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating complex texts across domains requires converting user defined criteria into quantitative, explainable indicators, which is a persistent challenge in search and recommendation systems. Single prompt LLM evaluations suffer from complexity and latency issues, while criterion specific decomposition approaches rely on naive averaging or opaque black-box aggregation methods. We present an interpretable aggregation framework combining LLM scoring with the Analytic Hierarchy Process. Our method generates criterion specific scores via LLM as judge, measures discriminative power using Jensen Shannon distance, and derives statistically grounded weights through AHP pairwise comparison matrices. Experiments on Amazon review quality assessment and depression related text scoring demonstrate that our approach achieves high explainability and operational efficiency while maintaining comparable predictive power, making it suitable for real time latency sensitive web services.
- Abstract(参考訳): ドメイン間で複雑なテキストを評価するには、ユーザが定義した基準を定量的で説明可能な指標に変換する必要がある。
単一プロンプトLSM評価は複雑性とレイテンシの問題に悩まされる一方、基準固有の分解アプローチは、単純な平均化や不透明なブラックボックスアグリゲーション手法に依存している。
本稿では,LLMスコアリングと解析階層プロセスを組み合わせた解釈可能な集約フレームワークを提案する。
本手法は, LLMを判定として用い, Jensen Shannon 距離を用いて識別力を測定し, AHP 対比較行列を用いて統計的に接地した重みを導出する。
Amazonのレビュー品質評価と抑うつ関連テキスト評価の実験は、我々のアプローチが、同等の予測能力を維持しながら、高い説明可能性と運用効率を実現し、リアルタイムのレイテンシに敏感なWebサービスに適していることを実証している。
関連論文リスト
- AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs [1.6332728502735252]
大規模言語モデル(LLM)とレトリーバル拡張生成(RAG)システムは、産業アプリケーションにますます多くデプロイされている。
その信頼性は、幻覚検出の課題によって妨げられている。
本稿では,データアノテーションのボトルネックを,トレーニングデータ要件の低減の可能性を検討することによって解決する。
論文 参考訳(メタデータ) (2025-05-29T09:50:56Z) - An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning [52.29223403698673]
本稿では, Answer Set Programming (ASP) とともに, Conformal Language Modelling (CLM) の使用について検討する。
LLM から ASP プログラムの集合を生成するために CLM を適用し,出力の正確性に関する統計的保証を提供する。
実験の結果,標準サンプリング手法を用いたベースラインモデルではCLMが有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T14:10:10Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts [0.6291443816903801]
本稿では,大規模言語モデル(LLM)のロバスト性を自律的に評価する新しいフレームワークを提案する。
本稿では,ドメイン制約付き知識グラフ三重項から記述文を生成し,敵対的プロンプトを定式化する。
この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。
論文 参考訳(メタデータ) (2024-12-01T10:58:53Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。