論文の概要: Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework
- arxiv url: http://arxiv.org/abs/2305.03268v1
- Date: Fri, 5 May 2023 03:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-08 15:29:45.357961
- Title: Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework
- Title(参考訳): Verify-and-Edit: 知識強化型Chain-of-Thoughtフレームワーク
- Authors: Ruochen Zhao, Xingxuan Li, Shafiq Joty, Chengwei Qin, Lidong Bing
- Abstract要約: 大規模言語モデル(LLM)がNLPの標準となり、生成および推論タスクのパフォーマンスが向上した。
最も致命的な欠点の1つは、事実の正しさの欠如である。
非現実的なテキストを生成することは、パフォーマンスを低下させるだけでなく、アプリケーションの信頼性と妥当性を低下させる。
- 参考スコア(独自算出の注目度): 26.7264686036634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) have become the norm in NLP, demonstrating
good performance in generation and reasoning tasks, one of its most fatal
disadvantages is the lack of factual correctness. Generating unfactual texts
not only leads to lower performances but also degrades the trust and validity
of their applications. Chain-of-Thought (CoT) prompting improves trust and
model performance on complex reasoning tasks by generating interpretable
reasoning chains, but still suffers from factuality concerns in
knowledge-intensive tasks. In this paper, we propose the Verify-and-Edit
framework for CoT prompting, which seeks to increase prediction factuality by
post-editing reasoning chains according to external knowledge. Building on top
of GPT-3, our framework lead to accuracy improvements in multiple open-domain
question-answering tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)がNLPの標準となり、生成および推論タスクにおける優れたパフォーマンスを示すにつれ、最も致命的な欠点の1つは、事実の正しさの欠如である。
実際のテキストを生成するとパフォーマンスが低下するだけでなく、アプリケーションの信頼性と妥当性が低下する。
CoT(Chain-of-Thought)は、解釈可能な推論連鎖を生成することによって、複雑な推論タスクにおける信頼とモデルのパフォーマンスを向上させるが、それでも知識集約タスクにおける事実性の懸念に悩まされている。
本稿では,外的知識に基づいた後編集推論チェーンによる予測事実性の向上を目指す,cotプロンプトのための検証・編集フレームワークを提案する。
GPT-3上に構築したフレームワークは,複数のオープンドメイン質問応答タスクにおいて精度の向上を実現する。
関連論文リスト
- Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - ECCoT: A Framework for Enhancing Effective Cognition via Chain of Thought in Large Language Model [1.0760366210656895]
ECCoTは、大規模言語モデルで推論チェーンを評価し、洗練するフレームワークである。
解釈可能性を改善し、バイアスを減らし、LCMベースの意思決定の信頼性を高める。
論文 参考訳(メタデータ) (2025-06-24T13:09:53Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Deliberation on Priors: Trustworthy Reasoning of Large Language Models on Knowledge Graphs [31.457954100196524]
我々は、優先事項に関する審議(DP)と呼ばれる信頼できる推論フレームワークを提案する。
DPは、教師付き微調整とKahneman-Tversky最適化を組み合わせることで、構造的事前をLLM(Large Language Models)に統合する。
本フレームワークでは,LLMに対して,抽出した制約前処理に基づいて精巧な推論検証を行うための推論イントロスペクション戦略を採用している。
論文 参考訳(メタデータ) (2025-05-21T07:38:45Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Search-Based Correction of Reasoning Chains for Language Models [72.61861891295302]
CoT(Chain-of-Thought)推論は言語モデル(LM)の機能と透明性を向上した。
我々はCoTにおける各推論ステップを、その正確性を示す潜在変数で拡張する新しい自己補正フレームワークを導入する。
また,離散探索アルゴリズムであるサーチコレクタも導入した。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
知識グラフ駆動のCoT生成、学習可能な知識ケース対応RAG、擬似プログラム実行などを備えている。
最先端の方法と比較すると、CoT-RAGは4.0%から23.0%の精度で大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Aligning Large Language Models for Faithful Integrity Against Opposing Argument [71.33552795870544]
大規模言語モデル(LLM)は複雑な推論タスクにおいて印象的な機能を示している。
原文が正しい場合でも、会話中に不誠実な議論によって容易に誤解される。
本稿では,信頼度と信頼度を両立させる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-02T16:38:21Z) - Retrieving, Rethinking and Revising: The Chain-of-Verification Can Improve Retrieval Augmented Generation [38.80878966092216]
大規模言語モデル(LLM)の強化を目的とした最近の検索拡張生成(RAG)
本稿では,外部検索の正しさと内部生成の整合性を高めるためのチェーン・オブ・バリフィケーション(CoV-RAG)を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:34:54Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction [9.44858963874474]
CoT(Chain-of-Thought)により、LLM(Large Language Models)の複雑な推論能力が向上する。
我々は,これらの課題に対処するために,自己整合性とマルチエージェントの議論システムを用いたCoTリレーラを提案する。
様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Boosting Language Models Reasoning with Chain-of-Knowledge Prompting [18.326858925174605]
CoK(Chain-of-Knowledge)は、構造三重の形で明確な知識証拠を引き出すことを目的としている。
さらに, 推論チェーンの信頼性を推定するF2-Verification法を導入する。
広汎な実験により,本手法はコモンセンス,事実,記号,算術的推論タスクの性能をさらに向上させることができることが示された。
論文 参考訳(メタデータ) (2023-06-10T12:42:36Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。