論文の概要: Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question
Answering Benchmark
- arxiv url: http://arxiv.org/abs/2402.19248v2
- Date: Sat, 2 Mar 2024 04:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 12:20:41.957145
- Title: Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question
Answering Benchmark
- Title(参考訳): LLMが最新の挑戦に挑戦する!
中国の動的質問応答ベンチマーク
- Authors: Zhikun Xu, Yinghui Li, Ruixue Ding, Xinyu Wang, Boli Chen, Yong Jiang,
Hai-Tao Zheng, Wenlian Lu, Pengjun Xie, Fei Huang
- Abstract要約: 我々は,中国インターネットの最新ニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。
我々は、人間とモデルを組み合わせたパイプラインを通じて高品質なデータを得る。
また,CDQA上での中国LLMの評価と分析を行った。
- 参考スコア(独自算出の注目度): 69.3415799675046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to better evaluate the capabilities of Large Language Models (LLMs) is
the focal point and hot topic in current LLMs research. Previous work has noted
that due to the extremely high cost of iterative updates of LLMs, they are
often unable to answer the latest dynamic questions well. To promote the
improvement of Chinese LLMs' ability to answer dynamic questions, in this
paper, we introduce CDQA, a Chinese Dynamic QA benchmark containing
question-answer pairs related to the latest news on the Chinese Internet. We
obtain high-quality data through a pipeline that combines humans and models,
and carefully classify the samples according to the frequency of answer changes
to facilitate a more fine-grained observation of LLMs' capabilities. We have
also evaluated and analyzed mainstream and advanced Chinese LLMs on CDQA.
Extensive experiments and valuable insights suggest that our proposed CDQA is
challenging and worthy of more further study. We believe that the benchmark we
provide will become one of the key data resources for improving LLMs' Chinese
question-answering ability in the future.
- Abstract(参考訳): LLM(Large Language Models)の能力をどう評価するかは、現在のLLM研究の焦点とホットトピックである。
これまでの研究によると、LLMの反復的な更新のコストが非常に高いため、最新の動的問題にうまく答えられないことが多い。
本稿では,中国のLLMが動的質問に答える能力を向上させるために,中国における最新のニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。
我々は,人間とモデルを組み合わせたパイプラインを通して高品質なデータを取得し,回答変化の頻度に応じてサンプルを慎重に分類し,llmsの能力をより詳細に観察する。
また,CDQA上での中国LLMの評価と分析を行った。
大規模な実験と貴重な洞察は、提案したCDQAが困難であり、さらなる研究に値することを示唆している。
我々は,我々の提供するベンチマークが,今後の中国の質問応答能力向上の鍵となるデータ資源の1つになると信じている。
関連論文リスト
- Compound-QA: A Benchmark for Evaluating LLMs on Compound Questions [10.783827859678892]
本稿では、複合質問合成(CQ-Syn)を導入し、複合QAベンチマークを作成する。
このベンチマークは、プロプライエタリな大規模言語モデルにアノテートされた既存のQAデータセットに由来する。
LLM能力は、理解、推論、知識を含む3次元の観点で評価する。
論文 参考訳(メタデータ) (2024-11-15T13:12:29Z) - Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models [24.47838086336772]
中国語SimpleQAは、短い質問に答える言語モデルの事実性を評価する最初の包括的な中国のベンチマークである。
私たちは、99の多様なサブトピックを持つ6つの主要なトピックに関する中国語に焦点を当てています。
論文 参考訳(メタデータ) (2024-11-11T17:10:56Z) - AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models [29.202758753639078]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の限界について検討する。
本稿では,モデルの性能をより正確に反映できるMCQ(Multiple-Choice Questions, MCQA+)のデータセット拡張手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - keqing: knowledge-based question answering is a nature chain-of-thought
mentor of LLM [27.76205400533089]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスク、特に質問応答において顕著な性能を示した。
本稿では,知識グラフ上の質問関連構造化情報を取得するために,ChatGPTなどのLLMを支援する新しいフレームワークを提案する。
KBQAデータセットの実験結果から,Keqingは競合性能を達成でき,各質問に答える論理を説明できることがわかった。
論文 参考訳(メタデータ) (2023-12-31T08:39:04Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。