論文の概要: Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate
- arxiv url: http://arxiv.org/abs/2305.13160v2
- Date: Tue, 10 Oct 2023 17:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:35:13.975643
- Title: Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate
- Title(参考訳): ChatGPTは真実の信念を守れるか?
ディベートによるLLM推論の評価
- Authors: Boshi Wang, Xiang Yue, Huan Sun
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
- 参考スコア(独自算出の注目度): 19.887103433032774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) such as ChatGPT and GPT-4 have shown impressive
performance in complex reasoning tasks. However, it is difficult to know
whether the models are reasoning based on deep understandings of truth and
logic, or leveraging their memorized patterns in a relatively superficial way.
In this work, we explore testing LLMs' reasoning by engaging with them in a
debate-like conversation, where given a question, the LLM and the user need to
discuss to make the correct decision starting from opposing arguments. Upon
mitigating the Clever Hans effect, our task requires the LLM to not only
achieve the correct answer on its own, but also be able to hold and defend its
belief instead of blindly believing or getting misled by the user's (invalid)
arguments and critiques, thus testing in greater depth whether the LLM grasps
the essence of the reasoning required to solve the problem. Across a range of
complex reasoning benchmarks spanning math, commonsense, logic and BIG-Bench
tasks, we find that despite their impressive performance as reported in
existing work on generating correct step-by-step solutions in the beginning,
LLMs like ChatGPT cannot maintain their beliefs in truth for a significant
portion of examples when challenged by oftentimes absurdly invalid arguments.
Our work points to danger zones of model alignment, and also suggests more
careful treatments and interpretations of the recent findings that LLMs can
improve their responses based on feedback.
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な性能を示している。
しかし、モデルが真理と論理の深い理解に基づく推論なのか、あるいは比較的表面的な方法で記憶されたパターンを利用するのかを知ることは困難である。
本研究では,LLMの推論を議論のような会話で行うことで検証する。そこでは,LLMとユーザは,対立する議論から始めて正しい判断を下すために議論する必要がある。
巧妙なハンス効果を緩和するにあたって、我々のタスクでは、llmは、それ自体で正しい答えを達成するだけでなく、ユーザーの(有害な)議論や批判によって盲目的に信じたり誤解されたりするのではなく、その信念を守り、llmが問題解決に必要な推論の本質を把握しているかを、より深くテストする必要があります。
数学、コモンセンス、論理学、BIG-Benchタスクにまたがる様々な複雑な推論ベンチマークにおいて、初期の段階では正しいステップバイステップのソリューションを生成するというこれまでの研究で報告されているような、印象的な性能にもかかわらず、ChatGPTのようなLLMは、しばしば不当な議論によって挑戦される場合のかなりの部分において、真実における信念を維持できない。
我々の研究は、モデルアライメントの危険領域を指摘し、LLMがフィードバックに基づいて応答を改善するという最近の知見のより慎重な治療と解釈を示唆している。
関連論文リスト
- LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding [40.2816930342597]
大規模言語モデル(LLM)は多くの推論タスクにおいて優れたパフォーマンスを示している。
しかしそれでも、論理的推論を含む複雑な推論タスクに苦戦している。
本稿では,WHAT,WHY,HOWの3次元から具体的な5つのタスクを提案する。
論文 参考訳(メタデータ) (2024-04-04T08:38:03Z) - Meaningful Learning: Advancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
それにもかかわらず、一般的な事実に支えられた単純な質問をタスクすると、LCMは一貫性のある正確な答えを提供しないことが多い。
このことは、LSMが真に推論しているのか、単に記憶しているだけなのか、という活発な議論を引き起こしている。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.89346248535922]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。