論文の概要: Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question
Answering Benchmark
- arxiv url: http://arxiv.org/abs/2402.19248v2
- Date: Sat, 2 Mar 2024 04:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 12:20:41.957145
- Title: Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question
Answering Benchmark
- Title(参考訳): LLMが最新の挑戦に挑戦する!
中国の動的質問応答ベンチマーク
- Authors: Zhikun Xu, Yinghui Li, Ruixue Ding, Xinyu Wang, Boli Chen, Yong Jiang,
Hai-Tao Zheng, Wenlian Lu, Pengjun Xie, Fei Huang
- Abstract要約: 我々は,中国インターネットの最新ニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。
我々は、人間とモデルを組み合わせたパイプラインを通じて高品質なデータを得る。
また,CDQA上での中国LLMの評価と分析を行った。
- 参考スコア(独自算出の注目度): 69.3415799675046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to better evaluate the capabilities of Large Language Models (LLMs) is
the focal point and hot topic in current LLMs research. Previous work has noted
that due to the extremely high cost of iterative updates of LLMs, they are
often unable to answer the latest dynamic questions well. To promote the
improvement of Chinese LLMs' ability to answer dynamic questions, in this
paper, we introduce CDQA, a Chinese Dynamic QA benchmark containing
question-answer pairs related to the latest news on the Chinese Internet. We
obtain high-quality data through a pipeline that combines humans and models,
and carefully classify the samples according to the frequency of answer changes
to facilitate a more fine-grained observation of LLMs' capabilities. We have
also evaluated and analyzed mainstream and advanced Chinese LLMs on CDQA.
Extensive experiments and valuable insights suggest that our proposed CDQA is
challenging and worthy of more further study. We believe that the benchmark we
provide will become one of the key data resources for improving LLMs' Chinese
question-answering ability in the future.
- Abstract(参考訳): LLM(Large Language Models)の能力をどう評価するかは、現在のLLM研究の焦点とホットトピックである。
これまでの研究によると、LLMの反復的な更新のコストが非常に高いため、最新の動的問題にうまく答えられないことが多い。
本稿では,中国のLLMが動的質問に答える能力を向上させるために,中国における最新のニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。
我々は,人間とモデルを組み合わせたパイプラインを通して高品質なデータを取得し,回答変化の頻度に応じてサンプルを慎重に分類し,llmsの能力をより詳細に観察する。
また,CDQA上での中国LLMの評価と分析を行った。
大規模な実験と貴重な洞察は、提案したCDQAが困難であり、さらなる研究に値することを示唆している。
我々は,我々の提供するベンチマークが,今後の中国の質問応答能力向上の鍵となるデータ資源の1つになると信じている。
関連論文リスト
- Can multiple-choice questions really be useful in detecting the abilities of LLMs? [15.756543037102256]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)が広く用いられている。
課題と評価方法のミスアライメントは,MCQの有効性の思慮深い分析を必要とする。
質問応答(QA)データセットを中国語と英語の2言語で評価した。
論文 参考訳(メタデータ) (2024-03-26T14:43:48Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - MRKE: The Multi-hop Reasoning Evaluation of LLMs by Knowledge Edition [41.7633932976937]
市販のHotpotQAデータセットを編集して,新たな知識に基づくLCM MHQA評価ベンチマークを導入する。
また,マルチホップ質問に対応するサブクエストと中間回答の形式で推論連鎖を注釈し,評価する。
論文 参考訳(メタデータ) (2024-02-19T08:12:30Z) - When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models [62.42534500424585]
本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice
Question Answering for the Evaluation of Large Language Models [30.674058754196462]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の合理性を検討する。
この期待とは対照的に,LLM応答の一貫性に顕著な相違が示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - keqing: knowledge-based question answering is a nature chain-of-thought
mentor of LLM [27.76205400533089]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスク、特に質問応答において顕著な性能を示した。
本稿では,知識グラフ上の質問関連構造化情報を取得するために,ChatGPTなどのLLMを支援する新しいフレームワークを提案する。
KBQAデータセットの実験結果から,Keqingは競合性能を達成でき,各質問に答える論理を説明できることがわかった。
論文 参考訳(メタデータ) (2023-12-31T08:39:04Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Investigating the Factual Knowledge Boundary of Large Language Models
with Retrieval Augmentation [91.30946119104111]
大規模言語モデル(LLM)は,質問に応答する能力に対して,波及しない自信を持っていることを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
また, LLM は, 回答の定式化に際し, 提案した検索結果に依存する傾向が認められた。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。