Fugu-MT 論文翻訳(概要): Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification

論文の概要: Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification

arxiv url: http://arxiv.org/abs/2402.10735v2
Date: Wed, 20 Mar 2024 19:14:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 19:07:50.742182
Title: Assessing the Reasoning Abilities of ChatGPT in the Context of Claim Verification
Title（参考訳）: クレーム検証の文脈におけるChatGPTの推論能力の評価
Authors: John Dougrez-Lewis, Mahmud Elahi Akhter, Yulan He, Maria Liakata,
Abstract要約: GPT-3.5-Turbo と GPT-4 の推論能力について検討した。我々の研究は、ChatGPTの推論プロセスが人間のような推論を反映する可能性が低いことを示唆する研究の組織に寄与する。
参考スコア（独自算出の注目度）: 19.94897851500131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The reasoning capabilities of LLMs are currently hotly debated. We examine the issue from the perspective of claim/rumour verification. We propose the first logical reasoning framework designed to break down any claim or rumour paired with evidence into the atomic reasoning steps necessary for verification. Based on our framework, we curate two annotated collections of such claim/evidence pairs: a synthetic dataset from Wikipedia and a real-world set stemming from rumours circulating on Twitter. We use them to evaluate the reasoning capabilities of GPT-3.5-Turbo and GPT-4 (hereinafter referred to as ChatGPT) within the context of our framework, providing a thorough analysis. Our results show that ChatGPT struggles in abductive reasoning, although this can be somewhat mitigated by using manual Chain of Thought (CoT) as opposed to Zero-Shot (ZS) and ZS CoT approaches. Our study contributes to the growing body of research suggesting that ChatGPT's reasoning processes are unlikely to mirror human-like reasoning, and that LLMs need to be more rigorously evaluated to distinguish between hype and actual capabilities, especially in high-stakes real-world tasks such as claim verification.
Abstract（参考訳）: LLMの理由付け能力は、現在ホットな議論がなされている。クレーム/噂の検証の観点から問題を考察する。証拠と組み合わせた主張や噂を、検証に必要な原子的推論ステップに分解するために設計された最初の論理的推論フレームワークを提案する。当社のフレームワークをベースとして,ウィキペディアの合成データセットと,Twitter上で流される噂から生ずる実世界のデータセットという,このような主張/証拠のペアの注釈付きコレクションを2つキュレートした。 GPT-3.5-Turbo と GPT-4 (以下 ChatGPT と呼ぶ) の推論能力をフレームワークのコンテキスト内で評価し、徹底的な分析を行う。以上の結果から,ChatGPTはZero-Shot (ZS) やZS CoT (ZS) のアプローチに対して,手動のChain of Thought (CoT) を用いることによって多少緩和できるが,帰納的推論に苦慮していることが示された。本研究は,ChatGPTの推論プロセスが人間ライクな推論を反映する可能性が低いこと,特にクレーム検証のような実世界の課題において,ハイプと実際の能力を区別するために,LCMをより厳格に評価する必要があることを示唆する研究の組織に寄与する。

関連論文リスト

CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文参考訳（メタデータ） (2025-06-05T17:02:52Z)
Misaligning Reasoning with Answers -- A Framework for Assessing LLM CoT Robustness [3.9930400744726273]
我々は,回答と推論の関係を調べるために,MATCHAという新しい評価フレームワークを設計する。教育や医療といった分野では、推論は信頼性をモデル化するための鍵となる。以上の結果から,LLMは論理的タスクよりも多段階・常識的タスクに対する入力摂動の脆弱性が大きいことが示唆された。
論文参考訳（メタデータ） (2025-05-23T02:42:16Z)
InductionBench: LLMs Fail in the Simplest Complexity Class [53.70978746199222]
大規模言語モデル(LLM)は推論において顕著に改善されている。帰納的推論(inductive reasoning)は、観測されたデータから基礎となるルールを推測するものであり、まだ探索されていない。本稿では, LLMの帰納的推論能力を評価するための新しいベンチマークであるインジェクションベンチを紹介する。
論文参考訳（メタデータ） (2025-02-20T03:48:00Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
MIRAGE: Evaluating and Explaining Inductive Reasoning Process in Language Models [19.81485079689837]
帰納的および帰納的段階における大規模言語モデルの能力を評価する。モデルが正しい帰納的規則を使わずに常に正しい推論を行う傾向があることが分かる。帰納的推論プロセスでは、モデルは機能空間における現在のテスト例に近い観察された事実に焦点を当てる傾向があります。
論文参考訳（メタデータ） (2024-10-12T14:12:36Z)
Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。 LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文参考訳（メタデータ） (2024-07-31T18:47:11Z)
Towards Faithful Chain-of-Thought: Large Language Models are Bridging Reasoners [19.40385041079461]
大きな言語モデル(LLM)は、深刻な不信の連鎖(CoT)問題に悩まされる。まず、CoTステップの粒度におけるCoT忠実度問題について検討し、2つの推論パラダイムを特定した。次に、推論中の文脈、CoT、回答の因果関係を共同で分析する。
論文参考訳（メタデータ） (2024-05-29T09:17:46Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots [6.893551641325889]
ChatGPTの幻覚(もっともらしいが偽の情報を生み出す)は大きな課題となる。本稿では、外部知識をプロンプトと統合することにより、検索・拡張生成が幻覚にどのように対処できるかを考察する。以上の結果から,RAGの精度は向上するが,事前学習されたモデル理解と直接矛盾する場合は,まだ誤解が残る可能性がある。
論文参考訳（メタデータ） (2024-03-02T12:19:04Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。 1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文参考訳（メタデータ） (2023-11-16T11:26:21Z)
Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。 LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。 GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文参考訳（メタデータ） (2023-11-16T06:22:17Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-03T12:35:29Z)
Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文参考訳（メタデータ） (2023-10-23T12:40:41Z)
Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasoning [104.92384929827776]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な推論能力を示している。彼らは推論中に最新の知識と幻覚を欠いている。知識グラフ(KG)は、推論のための信頼できる知識源を提供する。
論文参考訳（メタデータ） (2023-10-02T10:14:43Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
How susceptible are LLMs to Logical Fallacies? [5.723715910568911]
論理的誤りに対する大規模言語モデルの堅牢性を評価するための診断ベンチマークであるLOGICOMを提案する。本稿では,GPT-3.5とGPT-4の性能を評価するために,議論の的となっているトピックを含むデータセットを用いて評価を行う。以上より, GPT-3.5 と GPT-4 は理屈によって意見の調整が可能であることが示唆された。
論文参考訳（メタデータ） (2023-08-18T23:07:29Z)
Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。この研究は、LLMの推論を議論のような会話で議論することで検証する。優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文参考訳（メタデータ） (2023-05-22T15:47:31Z)
Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文参考訳（メタデータ） (2023-03-11T01:19:01Z)
Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。 2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-02-19T12:29:33Z)
Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する無効な実演でもCoT推論が可能であることを示す。
論文参考訳（メタデータ） (2022-12-20T05:20:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。