論文の概要: When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models
- arxiv url: http://arxiv.org/abs/2402.11100v1
- Date: Fri, 16 Feb 2024 22:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 23:23:54.022932
- Title: When LLMs Meet Cunning Questions: A Fallacy Understanding Benchmark for
Large Language Models
- Title(参考訳): LLMsがCunning Questionsに出会った時: 大規模言語モデルの誤り理解ベンチマーク
- Authors: Yinghui Li, Qingyu Zhou, Yuanzhen Luo, Shirong Ma, Yangning Li,
Hai-Tao Zheng, Xuming Hu, Philip S. Yu
- Abstract要約: 本稿では,人間が理解し易いが,理解し難い質問を含むファラッキー理解ベンチマークを提案する。
具体的には、FLUBが焦点を当てている不気味な質問は、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招く質問から成り立っている。
LLMの誤り理解能力を評価するために,FLUBベンチマークの難易度を高める3つのタスクを設計する。
- 参考スコア(独自算出の注目度): 62.42534500424585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) have made remarkable evolutions in
language understanding and generation. Following this, various benchmarks for
measuring all kinds of capabilities of LLMs have sprung up. In this paper, we
challenge the reasoning and understanding abilities of LLMs by proposing a
FaLlacy Understanding Benchmark (FLUB) containing cunning questions that are
easy for humans to understand but difficult for models to grasp. Specifically,
the cunning questions that FLUB focuses on mainly consist of the tricky,
humorous, and misleading questions collected from the real internet
environment. And we design three tasks with increasing difficulty in the FLUB
benchmark to evaluate the fallacy understanding ability of LLMs. Based on FLUB,
we investigate the performance of multiple representative and advanced LLMs,
reflecting our FLUB is challenging and worthy of more future study. Interesting
discoveries and valuable insights are achieved in our extensive experiments and
detailed analyses. We hope that our benchmark can encourage the community to
improve LLMs' ability to understand fallacies.
- Abstract(参考訳): 近年,Large Language Models (LLM) は言語理解と生成において顕著な進化を遂げている。
その後、LLMのあらゆる種類の能力を測定するための様々なベンチマークが生まれている。
本稿では,人間にとって理解は容易だが,モデルでは理解が難しい質問を含む誤理解理解ベンチマーク(flub)を提案することで,llmの推論と理解能力に挑戦する。
具体的には、flubが焦点を絞った厄介な質問は、実際のインターネット環境から収集された厄介でユーモラスで誤解を招く質問から成り立っている。
FLUBベンチマークでは,LLMの誤り理解能力を評価するために3つのタスクを設計する。
FLUBに基づいて,複数の代表および先進LLMの性能を考察し,FLUBが課題であり,今後の研究に値するものであることを考察する。
興味深い発見と貴重な洞察は、広範な実験と詳細な分析で得られます。
当社のベンチマークは,LCMの誤認識を理解する能力の向上をコミュニティに促すことを願っている。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Learn to Refuse: Making Large Language Models More Controllable and
Reliable through Knowledge Scope Limitation and Refusal Mechanism [0.0]
大規模言語モデル(LLM)は印象的な言語理解と生成能力を示している。
これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。
本稿では,LLMに対して,誤りを避けるために,難解な質問への回答を拒否するように指示する拒絶機構を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:20:49Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。