論文の概要: Selective QA over Conflicting Multi-Source Personal Memory: A Diagnostic Testbed and Method Comparison
- arxiv url: http://arxiv.org/abs/2605.30087v1
- Date: Thu, 28 May 2026 15:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.427577
- Title: Selective QA over Conflicting Multi-Source Personal Memory: A Diagnostic Testbed and Method Comparison
- Title(参考訳): マルチソース・パーソナルメモリの競合に関する選択的QA:診断テストベッドと方法の比較
- Authors: Tiancheng Yang, Matthias Schonlau, Ilia Sucholutsky,
- Abstract要約: 既存のベンチマークでは、メソッドに与えられたエビデンスやメソッドのコンフリクト解決ステップからエラーが生じたかどうかはほとんど示されていない。
我々はこれをマルチソース・パーソナルメモリの競合に対する選択的QAとして検討する。
8種類の推論型,480のペルソナ,4つのランダムシード,34,560のインスタンスを対象とした18の質問テンプレートを含むベンチマークを作成した。
- 参考スコア(独自算出の注目度): 11.187819120306825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging personal AI agents are moving toward persistent, multi-source memory. This creates an evaluation problem: systems must decide how to use conflicting or incomplete evidence; they cannot just retrieve facts from one clean history. Existing benchmarks rarely show whether an error came from the evidence given to a method or from the method's conflict-resolution step. We study this as selective QA over conflicting multi-source personal memory: systems answer based on conflicting, sometimes incomplete sources, or abstain when evidence is insufficient. We develop a benchmark containing 18 question templates across 8 reasoning types, 480 personas, 4 random seeds, and 34,560 instances, with controlled source distortions and deterministic ground truth. We evaluate the performance of baselines without access to any source, access to a single source, structured fusion methods, and frontier LLMs. The best trained fusion resolver reaches 80.3% accuracy, while the strongest prompt-only LLM baseline reaches 70.0%. With abstention, the same resolver reaches 85.3% selective accuracy at 78.3% coverage and the best LLM reaches 71.0% selective accuracy at 95.4% coverage. Different models have different strengths across reasoning types. We release the data, code, cached model outputs, and data-generating process for reuse.
- Abstract(参考訳): 新たなパーソナルAIエージェントは、永続的でマルチソースなメモリへと移行している。
システムは矛盾する証拠や不完全な証拠の使い方を判断しなければならない。
既存のベンチマークでは、メソッドに与えられたエビデンスやメソッドのコンフリクト解決ステップからエラーが生じたかどうかはほとんど示されていない。
我々は、これをマルチソースのパーソナルメモリの競合に対する選択的QAとして検討する。
本研究では,8つの推論型,480のペルソナ,4つのランダムシード,34,560のインスタンスを対象とした18の質問テンプレートを含むベンチマークを作成した。
我々は,ソースへのアクセス,単一ソースへのアクセス,構造的融合法,フロンティアLCMを使わずにベースラインの性能を評価する。
最も訓練された核融合リゾルバは80.3%、最強のプロンプトのみのLDMベースラインは70.0%に達する。
禁断の場合、同じリゾルバは78.3%のカバレッジで85.3%の選択的精度に達し、最高のLCMは95.4%のカバレッジで71.0%の選択的精度に達する。
異なるモデルは推論タイプによって異なる強度を持つ。
データ、コード、キャッシュされたモデル出力、再利用のためのデータ生成プロセスをリリースします。
関連論文リスト
- Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks [0.9831489366502301]
本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
論文 参考訳(メタデータ) (2025-02-18T14:32:44Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。