論文の概要: Faithfulness metric fusion: Improving the evaluation of LLM trustworthiness across domains
- arxiv url: http://arxiv.org/abs/2512.05700v1
- Date: Fri, 05 Dec 2025 13:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.034869
- Title: Faithfulness metric fusion: Improving the evaluation of LLM trustworthiness across domains
- Title(参考訳): 信頼度計量融合 : ドメイン間のLLM信頼性評価の改善
- Authors: Ben Malin, Tatiana Kalganova, Nikolaos Boulgouris,
- Abstract要約: 大規模言語モデル(LLM)における忠実度評価の精度向上手法を提案する。
提案手法は,基本忠実度を混合(融合)計量に組み合わせたものである。
この融合計量は、信頼のためにテストされたすべての領域にわたって、より強く人間の判断と相関することが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a methodology for improving the accuracy of faithfulness evaluation in Large Language Models (LLMs). The proposed methodology is based on the combination of elementary faithfulness metrics into a combined (fused) metric, for the purpose of improving the faithfulness of LLM outputs. The proposed strategy for metric fusion deploys a tree-based model to identify the importance of each metric, which is driven by the integration of human judgements evaluating the faithfulness of LLM responses. This fused metric is demonstrated to correlate more strongly with human judgements across all tested domains for faithfulness. Improving the ability to evaluate the faithfulness of LLMs, allows for greater confidence to be placed within models, allowing for their implementation in a greater diversity of scenarios. Additionally, we homogenise a collection of datasets across question answering and dialogue-based domains and implement human judgements and LLM responses within this dataset, allowing for the reproduction and trialling of faithfulness evaluation across domains.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) における忠実度評価の精度向上手法を提案する。
提案手法は, LLM出力の忠実度を改善するために, 基本忠実度を混合(融合)度に組み合わせた手法である。
提案手法は,LLM応答の忠実度を評価する人的判断の統合により,各指標の重要性を識別する木モデルを構築した。
この融合計量は、信頼のためにテストされたすべての領域にわたって、より強く人間の判断と相関することが示されている。
LLMの忠実さを評価する能力の向上により、モデル内により大きな信頼性を配置できるようになり、シナリオの多様性が向上する。
さらに、質問応答と対話に基づくドメインをまたいだデータセットの集合を均質化し、このデータセット内で人間の判断とLLM応答を実装し、ドメイン間の忠実度評価の再現と試行を可能にする。
関連論文リスト
- On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:33:24Z) - Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。
データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文 参考訳(メタデータ) (2025-11-13T08:13:23Z) - Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。
彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。
そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T18:45:10Z) - Reranking-based Generation for Unbiased Perspective Summarization [10.71668103641552]
我々は,人間のアノテーションを用いて,計量信頼性をベンチマークするテストセットを開発した。
従来の指標は言語モデルに基づく指標に比べて性能が低いことが示され、強力な評価指標であることが証明された。
本研究の目的は,視点要約手法の信頼性評価と開発に寄与することである。
論文 参考訳(メタデータ) (2025-06-19T00:01:43Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - FedEval-LLM: Federated Evaluation of Large Language Models on Downstream Tasks with Collective Wisdom [19.104850413126066]
大規模言語モデル(LLM)の協調学習のための有望なソリューションとして、フェデレートラーニング(FL)が登場した。
ラベル付きテストセットと類似度に基づくメトリクスに依存する従来の評価手法は、許容できる答えのサブセットのみをカバーする。
我々は、ラベル付きテストセットや外部ツールに依存することなく、下流タスクにおけるLCMの信頼性の高い性能測定を提供するFedEval-LLMを提案する。
論文 参考訳(メタデータ) (2024-04-18T15:46:26Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Fusion-Eval: Integrating Assistant Evaluators with LLMs [11.309661922644217]
フュージョン・エバル(Fusion-Eval)は、Large Language Models(LLM)を活用して様々なアシスタント評価者の洞察を統合する革新的な手法である。
We show that Fusion-Eval achieve a 0.962 system-level Kendall-Tau correlation with human on SummEval and a 0.744 turn-level Spearman correlation on TopicalChat。
論文 参考訳(メタデータ) (2023-11-15T18:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。