論文の概要: Can ChatGPT Defend the Truth? Automatic Dialectical Evaluation Elicits
LLMs' Deficiencies in Reasoning
- arxiv url: http://arxiv.org/abs/2305.13160v1
- Date: Mon, 22 May 2023 15:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:47:02.551939
- Title: Can ChatGPT Defend the Truth? Automatic Dialectical Evaluation Elicits
LLMs' Deficiencies in Reasoning
- Title(参考訳): ChatGPTは真実を守ることができるか?
LLMの推論における欠陥を緩和する自動辞書評価
- Authors: Boshi Wang, Xiang Yue, Huan Sun
- Abstract要約: 本稿では,ChatGPTのような大規模言語モデル(LLM)の推論能力について,議論のような会話を通じて検証する。
当初、正しいステップバイステップのソリューションを生成できたとしても、ChatGPTはその真理に対する信念を維持できないことが分かりました。
- 参考スコア(独自算出の注目度): 30.773160470446616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore testing the reasoning ability of large language models (LLMs),
such as ChatGPT, by engaging with them in a debate-like conversation that
probes deeper into their understanding of the subject. Specifically, we
formulate a new task where given a question, the LLM can generate a correct
solution while the user believes in a wrong solution in the beginning, and they
need to discuss to make the correct decision through dialogue. Such a setting
requires the LLM to not only achieve the correct answer on its own (which could
be done by shallow memorization), but also be able to defend the truth instead
of blindly believing or getting misled by the user's (invalid) arguments and
critiques, thus testing in greater depth whether the LLM grasps the essence of
the reasoning required to solve the problem. To automate this evaluation
framework and save human labor, we simulate the user using another LLM
conditioned on a synthesized wrong solution. Across a range of complex
reasoning benchmarks spanning math, commonsense, logic and tasks from
BIG-Bench, we find that despite being able to generate correct step-by-step
solutions in the beginning, ChatGPT cannot maintain its belief in truth for a
significant portion of examples when challenged by often-time absurdly invalid
arguments. Our work reveals LLMs' weaknesses not captured by conventional
benchmarking, and also points to danger zones of aligning models with human
feedback.
- Abstract(参考訳): chatgptのような大規模言語モデル(llm)の推論能力をテストするために、議論のような会話に参加し、その主題に対する理解をより深く探究する。
具体的には,質問に対してLLMが正しい解を生成できる新たなタスクを定式化し,ユーザが最初に間違った解を信じている場合,対話を通じて正しい判断を下すために議論する必要がある。
このような設定では、LSMは自分自身で正しい答えを達成するだけでなく(浅い暗記によって達成できる)、ユーザーの(無意味な)議論や批判を盲目的に信じたり誤解させたりするのではなく、真実を守ることができるため、LCMが問題解決に必要な理由の本質を把握しているかどうかをより深くテストする必要がある。
この評価フレームワークを自動化し,人的労力を節約するために,合成間違った解に条件付けされた別のLCMを用いてユーザをシミュレートする。
数学、コモンセンス、論理、およびBIG-Benchのタスクにまたがる様々な複雑な推論ベンチマークにおいて、初期の段階では正しいステップバイステップのソリューションを生成できたにもかかわらず、ChatGPTは、しばしば不当に無効な議論に挑戦した場合、その真理に対する信念を維持できない。
本研究は、従来のベンチマークでは捉えられていないllmsの弱点を明らかにし、モデルと人間のフィードバックを整合させる危険ゾーンも指摘している。
関連論文リスト
- LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Reason from Fallacy: Enhancing Large Language Models' Logical Reasoning through Logical Fallacy Understanding [40.2816930342597]
大規模言語モデル(LLM)は多くの推論タスクにおいて優れたパフォーマンスを示している。
しかしそれでも、論理的推論を含む複雑な推論タスクに苦戦している。
本稿では,WHAT,WHY,HOWの3次元から具体的な5つのタスクを提案する。
論文 参考訳(メタデータ) (2024-04-04T08:38:03Z) - Meaningful Learning: Enhancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
LLMは、一貫した正確な答えを提供するために、一般的な事実を抽象化し、適用するのに苦労することが多い。
このことが、LSMが真に推論しているのか、単に記憶しているだけなのか、という激しい議論を巻き起こした。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。