Fugu-MT 論文翻訳(概要): AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses

論文の概要: AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses

arxiv url: http://arxiv.org/abs/2410.01246v1
Date: Wed, 2 Oct 2024 05:22:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 22:18:46.961897
Title: AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses
Title（参考訳）: オープンエンド応答の多点評価のための AHP を用いた LLM 推論
Authors: Xiaotian Lu, Jiyi Li, Koh Takeuchi, Hisashi Kashima,
Abstract要約: 本研究では,大規模言語モデルを用いたオープンエンド質問に対する回答評価手法を提案する。また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。
参考スコア（独自算出の注目度）: 26.850344968677582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Question answering (QA) tasks have been extensively studied in the field of natural language processing (NLP). Answers to open-ended questions are highly diverse and difficult to quantify, and cannot be simply evaluated as correct or incorrect, unlike close-ended questions with definitive answers. While large language models (LLMs) have demonstrated strong capabilities across various tasks, they exhibit relatively weaker performance in evaluating answers to open-ended questions. In this study, we propose a method that leverages LLMs and the analytic hierarchy process (AHP) to assess answers to open-ended questions. We utilized LLMs to generate multiple evaluation criteria for a question. Subsequently, answers were subjected to pairwise comparisons under each criterion with LLMs, and scores for each answer were calculated in the AHP. We conducted experiments on four datasets using both ChatGPT-3.5-turbo and GPT-4. Our results indicate that our approach more closely aligns with human judgment compared to the four baselines. Additionally, we explored the impact of the number of criteria, variations in models, and differences in datasets on the results.
Abstract（参考訳）: 質問応答(QA)タスクは自然言語処理(NLP)の分野で広く研究されている。オープンエンドの質問に対する回答は、非常に多様で定量化が困難であり、決定的な答えを持つクローズエンドの質問とは異なり、単に正しい、または正しく評価することはできない。大規模言語モデル(LLM)は様々なタスクにまたがる強力な能力を示しているが、オープンエンドの質問に対する回答を評価する際には、比較的弱い性能を示す。本研究では,LLMと解析階層プロセス(AHP)を利用して,オープンエンド質問に対する回答を評価する手法を提案する。我々はLLMを用いて質問に対する複数の評価基準を作成した。その後,各基準下での回答はLLMとペア比較され,各回答のスコアはAHPで計算された。また,ChatGPT-3.5-turbo と GPT-4 の2つのデータセットについて実験を行った。以上の結果から,本研究のアプローチは4つの基準線よりも人間の判断と密接に一致していることが示唆された。さらに、基準数、モデルのバリエーション、データセットの違いが結果に与える影響についても検討した。

関連論文リスト

Questionnaire meets LLM: A Benchmark and Empirical Study of Structural Skills for Understanding Questions and Responses [3.8293581919117123]
大規模言語モデル(LLM)は、オープンエンドテキストよりも数ショットの推論で優れている。現在の検索および調査分析ツールは、典型的にはワークフロー内の人間のために設計されている。回答検索,応答数,マルチホップ推論を含む6つの構造的スキルを探索するベンチマークであるQASUを紹介する。実験により、有効なフォーマットを選択し、迅速な組み合わせを行うことで、最適以下のフォーマットに比べて最大8.8%の精度が向上することが示された。
論文参考訳（メタデータ） (2025-10-30T08:18:37Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Compound-QA: A Benchmark for Evaluating LLMs on Compound Questions [10.783827859678892]
本稿では、複合質問合成(CQ-Syn)を導入し、複合QAベンチマークを作成する。このベンチマークは、プロプライエタリな大規模言語モデルにアノテートされた既存のQAデータセットに由来する。 LLM能力は、理解、推論、知識を含む3次元の観点で評価する。
論文参考訳（メタデータ） (2024-11-15T13:12:29Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文参考訳（メタデータ） (2024-10-23T04:55:08Z)
LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文参考訳（メタデータ） (2024-09-23T06:42:21Z)
Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文参考訳（メタデータ） (2024-06-16T12:46:40Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。 GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文参考訳（メタデータ） (2024-05-23T10:00:14Z)
SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs [85.54906813106683]
大規模言語モデル(LLM)を用いたオープンドメイン質問応答(ODQA)の簡易かつ効果的なフレームワークを提案する。 SuRe は LLM が与えられた質問に対するより正確な回答を予測するのに役立つ。様々なODQAベンチマークの実験結果はSuReの優位性を示し、標準的なプロンプトアプローチよりも4.6%、F1スコアが4.0%向上した。
論文参考訳（メタデータ） (2024-04-17T01:15:54Z)
Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study [5.823006266363981]
大規模言語モデル(LLM)は、患者が質問に答えられるための有望な道を開いた。 GPT-4, Meta LLaMA 2, MedAlpaca, ORCA_miniの4つのLSMから53問の回答を得た。 GPT-4の反応はより正確で、有用で、関連性があり、安全である。
論文参考訳（メタデータ） (2024-01-23T22:03:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。