論文の概要: Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework
- arxiv url: http://arxiv.org/abs/2305.03268v1
- Date: Fri, 5 May 2023 03:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:29:45.357961
- Title: Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework
- Title(参考訳): Verify-and-Edit: 知識強化型Chain-of-Thoughtフレームワーク
- Authors: Ruochen Zhao, Xingxuan Li, Shafiq Joty, Chengwei Qin, Lidong Bing
- Abstract要約: 大規模言語モデル(LLM)がNLPの標準となり、生成および推論タスクのパフォーマンスが向上した。
最も致命的な欠点の1つは、事実の正しさの欠如である。
非現実的なテキストを生成することは、パフォーマンスを低下させるだけでなく、アプリケーションの信頼性と妥当性を低下させる。
- 参考スコア(独自算出の注目度): 26.7264686036634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) have become the norm in NLP, demonstrating
good performance in generation and reasoning tasks, one of its most fatal
disadvantages is the lack of factual correctness. Generating unfactual texts
not only leads to lower performances but also degrades the trust and validity
of their applications. Chain-of-Thought (CoT) prompting improves trust and
model performance on complex reasoning tasks by generating interpretable
reasoning chains, but still suffers from factuality concerns in
knowledge-intensive tasks. In this paper, we propose the Verify-and-Edit
framework for CoT prompting, which seeks to increase prediction factuality by
post-editing reasoning chains according to external knowledge. Building on top
of GPT-3, our framework lead to accuracy improvements in multiple open-domain
question-answering tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)がNLPの標準となり、生成および推論タスクにおける優れたパフォーマンスを示すにつれ、最も致命的な欠点の1つは、事実の正しさの欠如である。
実際のテキストを生成するとパフォーマンスが低下するだけでなく、アプリケーションの信頼性と妥当性が低下する。
CoT(Chain-of-Thought)は、解釈可能な推論連鎖を生成することによって、複雑な推論タスクにおける信頼とモデルのパフォーマンスを向上させるが、それでも知識集約タスクにおける事実性の懸念に悩まされている。
本稿では,外的知識に基づいた後編集推論チェーンによる予測事実性の向上を目指す,cotプロンプトのための検証・編集フレームワークを提案する。
GPT-3上に構築したフレームワークは,複数のオープンドメイン質問応答タスクにおいて精度の向上を実現する。
関連論文リスト
- A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for
Verifiers of Reasoning Chains [34.72503489170055]
ステップバイステップの回答を提供する言語モデル(例:Chain-of-Thought)は、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Boosting Language Models Reasoning with Chain-of-Knowledge Prompting [14.443107383265922]
CoK(Chain-of-Knowledge)は、構造三重の形で明確な知識証拠を引き出すことを目的としている。
さらに, 推論チェーンの信頼性を推定するF2-Verification法を導入する。
広汎な実験により,本手法はコモンセンス,事実,記号,算術的推論タスクの性能をさらに向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-10T12:42:36Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - Scalable Verification of GNN-based Job Schedulers [16.7289491091472]
グラフニューラルネットワーク(GNN)は、手作りクラスタよりも優れたパフォーマンスを達成するため、ジョブのスケジューリングに応用されている。
GNN-Verifyは,これらのスケジューラの単一ステップ特性と複数ステップ特性の両方を検証するための,最初の汎用フレームワークである。
論文 参考訳(メタデータ) (2022-03-07T06:13:04Z) - Reliable Post hoc Explanations: Modeling Uncertainty in Explainability [44.9824285459365]
ブラックボックスの説明は、高レベルの設定でモデルの信頼性を確立するために、ますます採用されている。
先行研究では、最先端の技術が生み出す説明は一貫性がなく不安定であり、その正確性や信頼性についての洞察はほとんど得られないことが示されている。
局所的な説明と関連する不確実性を生成するための新しいベイズ的枠組みを開発する。
論文 参考訳(メタデータ) (2020-08-11T22:52:21Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。