論文の概要: Concept-Reversed Winograd Schema Challenge: Evaluating and Improving Robust Reasoning in Large Language Models via Abstraction
- arxiv url: http://arxiv.org/abs/2410.12040v1
- Date: Tue, 15 Oct 2024 20:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:30.950320
- Title: Concept-Reversed Winograd Schema Challenge: Evaluating and Improving Robust Reasoning in Large Language Models via Abstraction
- Title(参考訳): 概念逆Winogradスキーマの課題:抽象化による大規模言語モデルにおけるロバスト推論の評価と改善
- Authors: Kaiqiao Han, Tianqing Fang, Zhaowei Wang, Yangqiu Song, Mark Steedman,
- Abstract要約: 我々は,表層論理的連鎖に頼るのではなく,Large Language Models (LLM) が頑健な推論を行う範囲を評価する。
我々は、有名なウィノグラードチャレンジ(WSC)データセットに基づいて、新しい評価データセットである概念逆ウィノグラードチャレンジ(CR-WSC)を提案する。
- 参考スコア(独自算出の注目度): 48.20754793102953
- License:
- Abstract: While Large Language Models (LLMs) have showcased remarkable proficiency in reasoning, there is still a concern about hallucinations and unreliable reasoning issues due to semantic associations and superficial logical chains. To evaluate the extent to which LLMs perform robust reasoning instead of relying on superficial logical chains, we propose a new evaluation dataset, the Concept-Reversed Winograd Schema Challenge (CR-WSC), based on the famous Winograd Schema Challenge (WSC) dataset. By simply reversing the concepts to those that are more associated with the wrong answer, we find that the performance of LLMs drops significantly despite the rationale of reasoning remaining the same. Furthermore, we propose Abstraction-of-Thought (AoT), a novel prompt method for recovering adversarial cases to normal cases using conceptual abstraction to improve LLMs' robustness and consistency in reasoning, as demonstrated by experiments on CR-WSC.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論において顕著な習熟度を示したが、意味的関連や表面論理的連鎖による幻覚や信頼性の低い推論の問題はまだ懸念されている。
表面的な論理的連鎖に頼るのではなく,LLMが頑健な推論を行う程度を評価するために,有名なWinograd Schema Challenge (WSC)データセットに基づく新しい評価データセットであるConcept-Reversed Winograd Schema Challenge (CR-WSC)を提案する。
誤った解答とより関係のある解に単純に逆転することで、理性理論が同じであるにもかかわらず LLM の性能は著しく低下することがわかった。
さらに, CR-WSC実験で実証されたように, LLMの堅牢性, 一貫性を向上させるために, 概念的抽象化を用いて, 通常のケースに対して, 敵のケースを復元する新たなプロンプト手法であるAoT(Abstraction-of-Thought)を提案する。
関連論文リスト
- Leveraging LLMs for Hypothetical Deduction in Logical Inference: A Neuro-Symbolic Approach [11.400815134634016]
本稿では,忠実な論理的推論のためのニューロシンボリックアプローチであるLINAを紹介する。
LLMが命題論理抽出から洗練された論理推論への移行を自律的に行えるようにすることで、LINAは推論プロセスのレジリエンスを高める。
実証的な評価は、LINAが確立された命題論理フレームワークと従来のプロンプト技術の両方を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-10-29T06:38:46Z) - Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
LLMの論理的推論能力の向上を目的とした新しいフレームワークであるReversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models [25.029579061612456]
大規模言語モデル(LLM)は、医療などの重要な領域における現実世界のアプリケーションにますます採用されている。
これらのモデルによって生成されたCoT(Chain-of-Thought)推論が、その基盤となる振る舞いを忠実に捉えることが重要である。
論文 参考訳(メタデータ) (2024-06-15T13:16:44Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Learning a Structural Causal Model for Intuition Reasoning in
Conversation [20.243323155177766]
NLP研究の重要な側面である推論は、一般的なモデルによって適切に対処されていない。
我々は、各発話がどのように情報チャネルを受信し、活性化するかを説明する会話認知モデル(CCM)を開発した。
変分推論を利用することで、暗黙的な原因の代用を探索し、その観測不可能性の問題に対処し、証拠の低い境界を通して発話の因果表現を再構築する。
論文 参考訳(メタデータ) (2023-05-28T13:54:09Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。