論文の概要: $A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
- arxiv url: http://arxiv.org/abs/2601.09274v1
- Date: Wed, 14 Jan 2026 08:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.331489
- Title: $A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
- Title(参考訳): A^3$-Bench: AnchorとAttractor Activationによるメモリ駆動科学推論のベンチマーク
- Authors: Jian Zhang, Yu He, Zhiyuan Wang, Zhangqi Wang, Kai He, Fangzhi Xu, Qika Lin, Jun Liu,
- Abstract要約: A3$-Benchは、デュアルスケールのメモリ駆動のアクティベーションを通じて科学的推論を評価するために設計されたベンチマークである。
まず、SAPMプロセスを用いて、ドメイン間での2,198の科学推論問題に注釈を付ける。
第2に,アンカーとアトラクタを利用したデュアルスケールメモリ評価フレームワークと,メモリアクティベーション率を測定するためのAAUI(Anchor-Attractor utilization Index)指標を導入する。
- 参考スコア(独自算出の注目度): 41.70470224401806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific reasoning relies not only on logical inference but also on activating prior knowledge and experiential structures. Memory can efficiently reuse knowledge and enhance reasoning consistency and stability. However, existing benchmarks mainly evaluate final answers or step-by-step coherence, overlooking the \textit{memory-driven} mechanisms that underlie human reasoning, which involves activating anchors and attractors, then integrating them into multi-step inference. To address this gap, we propose $A^3$-Bench~ https://a3-bench.github.io, a benchmark designed to evaluate scientific reasoning through dual-scale memory-driven activation, grounded in Anchor and Attractor Activation. First, we annotate 2,198 science reasoning problems across domains using the SAPM process(subject, anchor & attractor, problem, and memory developing). Second, we introduce a dual-scale memory evaluation framework utilizing anchors and attractors, along with the AAUI(Anchor--Attractor Utilization Index) metric to measure memory activation rates. Finally, through experiments with various base models and paradigms, we validate $A^3$-Bench and analyze how memory activation impacts reasoning performance, providing insights into memory-driven scientific reasoning.
- Abstract(参考訳): 科学的推論は論理的推論だけでなく、事前知識や経験的構造を活性化することにも依存する。
メモリは知識を効率的に再利用し、推論の一貫性と安定性を高める。
しかし、既存のベンチマークは主に最終回答やステップバイステップのコヒーレンスを評価し、アンカーとアトラクタの活性化を含む人間の推論の基盤となる \textit{Memory-driven} メカニズムを見落とし、それをマルチステップ推論に統合する。
A^3$-Bench~ https://a3-bench.github.io は,Anchor と Attractor Activation をベースとした2次元メモリ駆動型アクティベーションによる科学的推論を評価するためのベンチマークである。
まず、SAPMプロセス(オブジェクト、アンカー、アトラクタ、問題、メモリ開発)を用いて、各領域にまたがる2,198の科学推論問題を注釈付けする。
第2に,アンカーとアトラクタを利用したデュアルスケールメモリ評価フレームワークと,メモリアクティベーション率を測定するAAUI(Anchor-Attractor utilization Index)指標を導入する。
最後に、様々な基礎モデルとパラダイムの実験を通じて、$A^3$-Benchを検証し、メモリアクティベーションが推論性能に与える影響を分析し、メモリ駆動型科学推論の洞察を与える。
関連論文リスト
- Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning [55.251697395358285]
大規模言語モデル(LLM)は、環境を推論し、計画し、相互作用するインテリジェントエージェントとして、ますます多くデプロイされている。
長期のシナリオに効果的にスケールするには、そのようなエージェントの重要な機能は、過去の経験を保持し、整理し、取り出すことができるメモリメカニズムである。
イベント理論にインスパイアされたイベント中心のメモリフレームワークであるCompassMemを提案する。
論文 参考訳(メタデータ) (2026-01-08T08:44:07Z) - Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution [52.76038908826961]
我々は静的ストレージと動的推論のギャップを埋めるため、$textbfReMe$ ($textitRemember Me, Refine Me$)を提案する。
ReMeは3つのメカニズムを通じてメモリライフサイクルを革新する: $textitmulti-faceted distillation$, きめ細かい経験を抽出する。
BFCL-V3とAppWorldの実験では、ReMeが新しい最先端のエージェントメモリシステムを確立している。
論文 参考訳(メタデータ) (2025-12-11T14:40:01Z) - Agentic Learner with Grow-and-Refine Multimodal Semantic Memory [50.81667005063605]
ViLoMemは、コンパクトなスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。
視覚的障害パターンと論理的推論エラーを符号化し、MLLMが成功し失敗した経験から学ぶことを可能にする。
論文 参考訳(メタデータ) (2025-11-26T18:55:08Z) - ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory [57.517214479414726]
ReasoningBankは、エージェントの自己判断の成功と失敗の経験から一般化可能な推論戦略を抽出するメモリフレームワークである。
テスト時には、エージェントがReasoningBankから関連する記憶を取得してそのインタラクションを知らせ、新しい学習を統合することで、時間が経つにつれてより有能になる。
本稿では,エージェントのインタラクションエクスペリエンスをスケールアップすることにより,学習プロセスの高速化と多様化を図るメモリ対応テストタイムスケーリング(MaTTS)を提案する。
論文 参考訳(メタデータ) (2025-09-29T17:51:03Z) - ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory [21.4675019810992]
概念レベルのメモリは再利用され、ソリューショントレースから抽出されたモジュラー抽象化が自然言語に格納される。
我々は、合成一般化と抽象的推論を強調するベンチマークARC-AGIを評価する。
抽象概念は最も一貫したメモリ設計であり、全てのテストされた推論計算スケールでベースラインを上回ります。
論文 参考訳(メタデータ) (2025-09-04T17:54:19Z) - Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。
本稿ではまず,メモリ表現をパラメトリックおよびコンテキスト形式に分類する。
次に、コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。
論文 参考訳(メタデータ) (2025-05-01T17:31:33Z) - Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning [41.94295877935867]
メモリは、エージェントが時間的および空間的依存関係を持つ複雑なタスクに対処できるようにするために不可欠である。
多くの強化学習アルゴリズムにはメモリが組み込まれているが、エージェントのメモリ能力を評価するための普遍的なベンチマークがない。
メモリRLの総合ベンチマークであるMIKASAを紹介する。
論文 参考訳(メタデータ) (2025-02-14T20:46:19Z) - MEMO: A Deep Network for Flexible Combination of Episodic Memories [16.362284088767456]
MEMOは長い距離で推論できる能力を備えたアーキテクチャである。
まず、外部メモリに格納されたメモリと、これらの事実を外部メモリに格納するアイテムを分離する。
第二に、適応的な検索機構を利用し、応答が生成される前に「メモリホップ」の変動数を許容する。
論文 参考訳(メタデータ) (2020-01-29T15:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。