論文の概要: DebateQA: Evaluating Question Answering on Debatable Knowledge
- arxiv url: http://arxiv.org/abs/2408.01419v1
- Date: Fri, 2 Aug 2024 17:54:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 12:38:29.971825
- Title: DebateQA: Evaluating Question Answering on Debatable Knowledge
- Title(参考訳): DebateQA: 議論可能な知識に基づく質問応答の評価
- Authors: Rongwu Xu, Xuan Qi, Zehan Qi, Wei Xu, Zhijiang Guo,
- Abstract要約: 我々は2,941質問のデータセットであるDebateQAを紹介する。
私たちは、パースペクティブ多様性と論争意識の2つの指標を開発します。
DebateQAを2つのメトリクスで使用し、12の人気のある大規模言語モデルを評価します。
- 参考スコア(独自算出の注目度): 13.199937786970027
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rise of large language models (LLMs) has enabled us to seek answers to inherently debatable questions on LLM chatbots, necessitating a reliable way to evaluate their ability. However, traditional QA benchmarks assume fixed answers are inadequate for this purpose. To address this, we introduce DebateQA, a dataset of 2,941 debatable questions, each accompanied by multiple human-annotated partial answers that capture a variety of perspectives. We develop two metrics: Perspective Diversity, which evaluates the comprehensiveness of perspectives, and Dispute Awareness, which assesses if the LLM acknowledges the question's debatable nature. Experiments demonstrate that both metrics align with human preferences and are stable across different underlying models. Using DebateQA with two metrics, we assess 12 popular LLMs and retrieval-augmented generation methods. Our findings reveal that while LLMs generally excel at recognizing debatable issues, their ability to provide comprehensive answers encompassing diverse perspectives varies considerably.
- Abstract(参考訳): 大規模言語モデル (LLMs) の台頭により,LLMチャットボット上での本質的に議論の余地のある質問に対する回答を求めることができ,その能力を評価する上で信頼性の高い方法が必要になった。
しかし、従来のQAベンチマークでは、この目的のために固定された答えが不十分であると仮定している。
この問題に対処するために、DebateQAという2,941の難解な質問のデータセットを導入し、それぞれに様々な視点を捉えた複数の人手による部分的な回答を添えた。
本研究では,視点の包括性を評価するパースペクティブ・ダイバーシティと,LLMが疑問の解答性を認めているかどうかを評価するディスパプト・アウェアネスの2つの指標を開発する。
実験では、両方のメトリクスが人間の好みと一致し、異なる基盤モデルで安定していることが示されている。
DebateQAと2つのメトリクスを用いて、12の人気のあるLCMと検索拡張生成手法を評価する。
以上の結果から, LLMは概して, 問題点の認識に優れるが, 多様な視点を包含する包括的回答を提供する能力は, かなり異なることが明らかとなった。
関連論文リスト
- LOVA3: Learning to Visual Question Answering, Asking and Assessment [63.41469979867312]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
本研究では,「LOVA3」について紹介する。「学習tOビジュアル質問回答,質問及び評価」という,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Eyes Can Deceive: Benchmarking Counterfactual Reasoning Abilities of Multi-modal Large Language Models [71.34097831618631]
textbfCountertextbfFactual textbfMultitextbfModal reasoning benchmark(略して textbfCFMM)を導入する。
我々のCFMMは6つの課題からなる。
既存のMLLMは、自分たちが見ているものを信じることを好むが、その疑問に提示される反実的な前提を無視している。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - How Far Can We Extract Diverse Perspectives from Large Language Models? [17.66104821305835]
主観的トピックに対する多様な視点を生み出すための大規模言語モデルの能力について検討する。
本研究は, 人間の価値観を生かし, 評価基準に基づくプロンプト手法を提案する。
LLMはタスク主観性の度合いに応じて多様な意見を生成することができる。
論文 参考訳(メタデータ) (2023-11-16T11:23:38Z) - You don't need a personality test to know these models are unreliable: Assessing the Reliability of Large Language Models on Psychometric Instruments [37.03210795084276]
本稿では, 大規模言語モデルが応答を一貫した, 頑健な方法で引き起こすかどうかを考察する。
17種類のLDM実験により,単純な摂動でさえモデルの問合せ能力を大幅に低下させることが判明した。
その結果,現在広く普及しているプロンプトは,モデル知覚を正確にかつ確実に捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2023-11-16T09:50:53Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles [22.119796373133298]
インタラクティブなフレームワーク内でモデルの横方向の思考を評価する新しい評価ベンチマークであるLatEvalを提案する。
本ベンチマークでは,モデルが提示する質問の質と,問題解決のための情報の統合能力の2つの側面でLCMに挑戦する。
例えば、最も先進的なモデルであるGPT-4でさえある程度の優位性を示しているが、人間と比較しても顕著なギャップは維持されている。
論文 参考訳(メタデータ) (2023-08-21T16:49:40Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。