論文の概要: RIPPLECOT: Amplifying Ripple Effect of Knowledge Editing in Language Models via Chain-of-Thought In-Context Learning
- arxiv url: http://arxiv.org/abs/2410.03122v1
- Date: Fri, 4 Oct 2024 03:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:46:34.520215
- Title: RIPPLECOT: Amplifying Ripple Effect of Knowledge Editing in Language Models via Chain-of-Thought In-Context Learning
- Title(参考訳): RIPPLECOT:チェーン・オブ・ソート・インコンテクスト学習による言語モデルにおける知識編集のリップル効果の増幅
- Authors: Zihao Zhao, Yuchen Yang, Yijiang Li, Yinzhi Cao,
- Abstract要約: 本稿では,Chain-of-Thought推論を統合した新しいICL編集手法であるRippleCOTを提案する。
以上の結果から,RippleCOTは7.8%から87.1%の精度向上を実現した。
- 参考スコア(独自算出の注目度): 16.486529625382182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ripple effect poses a significant challenge in knowledge editing for large language models. Namely, when a single fact is edited, the model struggles to accurately update the related facts in a sequence, which is evaluated by multi-hop questions linked to a chain of related facts. Recent strategies have moved away from traditional parameter updates to more flexible, less computation-intensive methods, proven to be more effective in addressing the ripple effect. In-context learning (ICL) editing uses a simple demonstration `Imagine that + new fact` to guide LLMs, but struggles with complex multi-hop questions as the new fact alone fails to specify the chain of facts involved in such scenarios. Besides, memory-based editing maintains additional storage for all edits and related facts, requiring continuous updates to stay effective. As a result of these design limitations, the challenge remains, with the highest accuracy being only 33.8% on the MQuAKE-cf benchmarks for Vicuna-7B. To address this, we propose RippleCOT, a novel ICL editing approach integrating Chain-of-Thought (COT) reasoning. RippleCOT structures demonstrations as `newfact, question, thought, answer`, incorporating a thought component to identify and decompose the multi-hop logic within questions. This approach effectively guides the model through complex multi-hop questions with chains of related facts. Comprehensive experiments demonstrate that RippleCOT significantly outperforms the state-of-the-art on the ripple effect, achieving accuracy gains ranging from 7.8% to 87.1%.
- Abstract(参考訳): リップル効果は、大規模言語モデルの知識編集において重要な課題となる。
すなわち、単一の事実が編集されると、モデルは関連する事実の連鎖に関連付けられたマルチホップ質問によって評価されるシーケンス内の関連事実を正確に更新するのに苦労する。
最近の戦略は、従来のパラメータ更新から、より柔軟で計算集約性の高い方法へと移行し、リップル効果に対処する上でより効果的であることが証明された。
インコンテキストラーニング(ICL)の編集では、単純な「Imagine that + new fact」を使ってLLMをガイドするが、新しい事実だけでそのようなシナリオに関わる事実の連鎖を特定できないため、複雑なマルチホップ問題に苦労する。
さらに、メモリベースの編集は、すべての編集や関連する事実に対する追加のストレージを保持し、継続的な更新を効果的に維持する必要がある。
これらの設計上の制限の結果、Vicuna-7BのMQuAKE-cfベンチマークでは、最も高い精度が33.8%に留まった。
そこで我々は,Chain-of-Thought(COT)推論を統合した新しいICL編集手法であるRippleCOTを提案する。
RippleCOTはデモを‘newfact, question, thought, answer’として構成し、質問の中にマルチホップロジックを特定し分解するための思考コンポーネントを組み込む。
このアプローチは、関連する事実の連鎖による複雑なマルチホップ質問を通じて、モデルを効果的に導く。
総合的な実験により、RippleCOTはリップル効果の最先端を著しく上回り、精度は7.8%から87.1%まで向上した。
関連論文リスト
- Augmenting the Veracity and Explanations of Complex Fact Checking via Iterative Self-Revision with LLMs [10.449165630417522]
中国ではCHEF-EGとTrendFactという2つの複雑なファクトチェックデータセットを構築している。
これらのデータセットは、健康、政治、社会などの分野で複雑な事実を含む。
妥当性と説明の相互フィードバックを行うための統合フレームワークFactISRを提案する。
論文 参考訳(メタデータ) (2024-10-19T15:25:19Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - LLM-Based Multi-Hop Question Answering with Knowledge Graph Integration in Evolving Environments [35.3938477255058]
本稿では,大規模言語モデル(GMeLLo)のためのグラフメモリベースの編集について述べる。
GMeLLoは、知識グラフの明示的な知識表現と、大規模言語モデルの言語的柔軟性を融合する。
以上の結果から,GMeLLoはマルチホップ質問応答ベンチマークであるMQuAKEにおいて,最先端の知識編集手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-28T16:15:45Z) - Retrieval-enhanced Knowledge Editing in Language Models for Multi-Hop Question Answering [47.199078631274745]
大規模言語モデル(LLM)は質問応答タスクの習熟度を示しているが、しばしばリアルタイム知識の統合に苦慮している。
マルチホップ質問応答のためのRetrieval-Augmented Model Editing (RAE) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-28T17:47:19Z) - On the Robustness of Editing Large Language Models [57.477943944826904]
大型言語モデル(LLM)はコミュニケーションAIの構築において重要な役割を担っているが、効率的な更新の課題に直面している。
この研究は、編集方法の長所と短所を理解し、コミュニケーション型AIの実践的応用を促進することを目的としている。
論文 参考訳(メタデータ) (2024-02-08T17:06:45Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - PokeMQA: Programmable knowledge editing for Multi-hop Question Answering [46.80110170981976]
マルチホップ質問応答(MQA)は、マシンの理解と推論能力を評価する上で難しいタスクの1つである。
マルチホップ質問回答(MQA)のためのフレームワーク、Programmable Knowledge Editorを提案する。
具体的には、LLMの動作を外部のコンフリクト信号に応じて変調する訓練可能なスコープ検出器と相互作用しながら、知識強化されたマルチホップ質問を分解するよう促す。
論文 参考訳(メタデータ) (2023-12-23T08:32:13Z) - EXPLAIN, EDIT, GENERATE: Rationale-Sensitive Counterfactual Data
Augmentation for Multi-hop Fact Verification [28.453817513380276]
言語学的に多様でラベルに富む対物を生成するための有理感な手法を開発した。
具体的には、多様で流動的なカウンターファクトは、Explain-Edit-Generateアーキテクチャを介して生成される。
実験の結果,提案手法はSOTAベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-23T02:39:14Z) - MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions [75.21713251369225]
編集されたモデルが正しい解答を行うかどうかを評価するマルチホップ質問を含むベンチマークMQuAKEを提案する。
本稿では,メモリベースのアプローチであるMeLLoを提案する。これは,編集された事実に整合した回答を生成するために,言語モデルを反復的に促しながら,すべての編集された事実を外部に保存する。
論文 参考訳(メタデータ) (2023-05-24T06:48:41Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。