論文の概要: Can ChatGPT Defend the Truth? Automatic Dialectical Evaluation Elicits
LLMs' Deficiencies in Reasoning
- arxiv url: http://arxiv.org/abs/2305.13160v1
- Date: Mon, 22 May 2023 15:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:47:02.551939
- Title: Can ChatGPT Defend the Truth? Automatic Dialectical Evaluation Elicits
LLMs' Deficiencies in Reasoning
- Title(参考訳): ChatGPTは真実を守ることができるか?
LLMの推論における欠陥を緩和する自動辞書評価
- Authors: Boshi Wang, Xiang Yue, Huan Sun
- Abstract要約: 本稿では,ChatGPTのような大規模言語モデル(LLM)の推論能力について,議論のような会話を通じて検証する。
当初、正しいステップバイステップのソリューションを生成できたとしても、ChatGPTはその真理に対する信念を維持できないことが分かりました。
- 参考スコア(独自算出の注目度): 30.773160470446616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore testing the reasoning ability of large language models (LLMs),
such as ChatGPT, by engaging with them in a debate-like conversation that
probes deeper into their understanding of the subject. Specifically, we
formulate a new task where given a question, the LLM can generate a correct
solution while the user believes in a wrong solution in the beginning, and they
need to discuss to make the correct decision through dialogue. Such a setting
requires the LLM to not only achieve the correct answer on its own (which could
be done by shallow memorization), but also be able to defend the truth instead
of blindly believing or getting misled by the user's (invalid) arguments and
critiques, thus testing in greater depth whether the LLM grasps the essence of
the reasoning required to solve the problem. To automate this evaluation
framework and save human labor, we simulate the user using another LLM
conditioned on a synthesized wrong solution. Across a range of complex
reasoning benchmarks spanning math, commonsense, logic and tasks from
BIG-Bench, we find that despite being able to generate correct step-by-step
solutions in the beginning, ChatGPT cannot maintain its belief in truth for a
significant portion of examples when challenged by often-time absurdly invalid
arguments. Our work reveals LLMs' weaknesses not captured by conventional
benchmarking, and also points to danger zones of aligning models with human
feedback.
- Abstract(参考訳): chatgptのような大規模言語モデル(llm)の推論能力をテストするために、議論のような会話に参加し、その主題に対する理解をより深く探究する。
具体的には,質問に対してLLMが正しい解を生成できる新たなタスクを定式化し,ユーザが最初に間違った解を信じている場合,対話を通じて正しい判断を下すために議論する必要がある。
このような設定では、LSMは自分自身で正しい答えを達成するだけでなく(浅い暗記によって達成できる)、ユーザーの(無意味な)議論や批判を盲目的に信じたり誤解させたりするのではなく、真実を守ることができるため、LCMが問題解決に必要な理由の本質を把握しているかどうかをより深くテストする必要がある。
この評価フレームワークを自動化し,人的労力を節約するために,合成間違った解に条件付けされた別のLCMを用いてユーザをシミュレートする。
数学、コモンセンス、論理、およびBIG-Benchのタスクにまたがる様々な複雑な推論ベンチマークにおいて、初期の段階では正しいステップバイステップのソリューションを生成できたにもかかわらず、ChatGPTは、しばしば不当に無効な議論に挑戦した場合、その真理に対する信念を維持できない。
本研究は、従来のベンチマークでは捉えられていないllmsの弱点を明らかにし、モデルと人間のフィードバックを整合させる危険ゾーンも指摘している。
関連論文リスト
- Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding [40.2816930342597]
大規模言語モデル(LLM)は多くの推論タスクにおいて優れたパフォーマンスを示している。
しかしそれでも、論理的推論を含む複雑な推論タスクに苦戦している。
本稿では,WHAT,WHY,HOWの3次元から具体的な5つのタスクを提案する。
論文 参考訳(メタデータ) (2024-04-04T08:38:03Z) - Meaningful Learning: Advancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
それにもかかわらず、一般的な事実に支えられた単純な質問をタスクすると、LCMは一貫性のある正確な答えを提供しないことが多い。
このことは、LSMが真に推論しているのか、単に記憶しているだけなのか、という活発な議論を引き起こしている。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Encouraging Divergent Thinking in Large Language Models through
Multi-Agent Debate [56.23037393834715]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。