論文の概要: Memento: Note-Taking for Your Future Self
- arxiv url: http://arxiv.org/abs/2506.20642v1
- Date: Wed, 25 Jun 2025 17:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.885667
- Title: Memento: Note-Taking for Your Future Self
- Title(参考訳): Memento: 将来の自己のためのノートタイキング
- Authors: Chao Wan, Albert Gong, Mihir Mishra, Carl-Leander Henneking, Claas Beger, Kilian Q. Weinberger,
- Abstract要約: 本稿では,まず複雑な質問を小さなステップに分解し,次に LLM を用いて事実のデータベースを動的に構築するプロンプト戦略を提案する。
私たちがMementoと呼ぶこの3段階戦略によって、さまざまな設定で既存のプロンプト戦略のパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 19.335552697328783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at reasoning-only tasks, but struggle when reasoning must be tightly coupled with retrieval, as in multi-hop question answering. To overcome these limitations, we introduce a prompting strategy that first decomposes a complex question into smaller steps, then dynamically constructs a database of facts using LLMs, and finally pieces these facts together to solve the question. We show how this three-stage strategy, which we call Memento, can boost the performance of existing prompting strategies across diverse settings. On the 9-step PhantomWiki benchmark, Memento doubles the performance of chain-of-thought (CoT) when all information is provided in context. On the open-domain version of 2WikiMultiHopQA, CoT-RAG with Memento improves over vanilla CoT-RAG by more than 20 F1 percentage points and over the multi-hop RAG baseline, IRCoT, by more than 13 F1 percentage points. On the challenging MuSiQue dataset, Memento improves ReAct by more than 3 F1 percentage points, demonstrating its utility in agentic settings.
- Abstract(参考訳): 大規模言語モデル (LLMs) は推論のみのタスクでは優れているが、マルチホップ質問応答のように、推論が検索と密結合でなければならない場合の難しさは大きい。
これらの制限を克服するために、まず複雑な問題を小さなステップに分解し、次にLSMを用いて事実のデータベースを動的に構築し、最後にこれらの事実をまとめて解決するプロンプト戦略を導入する。
私たちがMementoと呼ぶこの3段階戦略によって、さまざまな設定で既存のプロンプト戦略のパフォーマンスが向上することを示す。
9ステップのPhantomWikiベンチマークでは、すべての情報がコンテキストで提供される場合、Mementoはチェーン・オブ・シント(CoT)のパフォーマンスを2倍にする。
2WikiMultiHopQAのオープンドメイン版では、CoT-RAG with MementoはバニラCoT-RAGを20F1ポイント以上、マルチホップRAGベースラインIRCoTを13F1ポイント以上改善している。
挑戦的なMuSiQueデータセットでは、MementoはReActを3F1パーセント以上改善し、エージェント設定での実用性を実証している。
関連論文リスト
- ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [49.65993318863458]
ImpliRetは、推論の課題をドキュメントサイド処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering [27.37434534716611]
TreeHopはマルチホップ質問応答のための埋め込みレベルのフレームワークである。
TreeHopはクエリの埋め込みを動的に更新する。
TreeHopは、知識集約型アプリケーションにデプロイするための、より速く、よりコスト効率の良いソリューションです。
論文 参考訳(メタデータ) (2025-04-28T01:56:31Z) - MoreHopQA: More Than Multi-hop Reasoning [32.94332511203639]
提案するマルチホップデータセットであるMoreHopQAは,抽出結果から生成結果へシフトする。
我々のデータセットは,HotpotQA,2WikiMultihopQA,MuSiQueの3つの既存のマルチホップデータセットを利用して作成されている。
この結果から,初期のマルチホップ質問ではモデルの性能は良好であったが,拡張された質問では困難であった。
論文 参考訳(メタデータ) (2024-06-19T09:38:59Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - MoqaGPT : Zero-Shot Multi-modal Open-domain Question Answering with
Large Language Model [33.546564412022754]
MoqaGPTはマルチモーダルなオープンドメイン質問応答のためのフレームワークである。
それぞれのモダリティから回答を別々に抽出し、LLMを用いてこのマルチモーダル情報を融合して最終回答を生成する。
MultiModalQAデータセットでは、MoqaGPTはゼロショットベースラインを超え、F1を9.5ポイント、EMを10.1ポイント改善し、教師付きメソッドとのギャップを大幅に埋める。
論文 参考訳(メタデータ) (2023-10-20T04:09:36Z) - Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering [40.86455734818704]
オープンドメインのマルチホップ質問応答のためのほとんどショットラーニングは、大言語モデルの非コンテキストラーニング能力に依存している。
そこで本研究では,10組未満のアノテート質問応答対を必要とするマルチホップ質問応答のためのデータ合成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:57:31Z) - Table Meets LLM: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study [44.39031420687302]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
LLMの構造的理解能力を評価するためのベンチマークを設計して,これを理解しようと試みる。
重要な値や範囲識別など,効率的な構造的プロンプトのための$textitself-augmentation$を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - MoT: Memory-of-Thought Enables ChatGPT to Self-Improve [73.90376920653507]
我々は,注釈付きデータセットやパラメータ更新を使わずに,大規模言語モデルによる自己改善を実現するためのフレームワークであるMemory-of-Thoughtを提案する。
実験結果から,算術的推論,常識推論,事実推論,自然言語推論において,ChatGPTの能力向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-05-09T05:25:05Z) - When do you need Chain-of-Thought Prompting for ChatGPT? [87.45382888430643]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)から複雑な多段階推論を効果的に引き出すことができる
CoT がChatGPT などの最近の命令微調整 (IFT) LLM に対してまだ有効であるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-06T17:47:29Z) - Interleaving Retrieval with Chain-of-Thought Reasoning for
Knowledge-Intensive Multi-Step Questions [50.114651561111245]
マルチステップ質問応答のための新しいアプローチであるIRCoTを提案する。
CoTのステップで検索をインターリーブし、CoTで検索を誘導し、検索結果を用いてCoTを改善する。
論文 参考訳(メタデータ) (2022-12-20T18:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。