論文の概要: PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Multimodal Agents
- arxiv url: http://arxiv.org/abs/2602.00415v1
- Date: Sat, 31 Jan 2026 00:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.173259
- Title: PolarMem: A Training-Free Polarized Latent Graph Memory for Verifiable Multimodal Agents
- Title(参考訳): PolarMem: 検証可能なマルチモーダルエージェントのためのトレーニング不要な偏極遅延グラフメモリ
- Authors: Zhisheng Chen, Tingyu Wu, Zijie Zhou, Zhengwei Xie, Ziyan Weng, Yingwei Zhang,
- Abstract要約: マルチモーダルエージェントは受動的観察者から長距離意思決定者へと進化する。
現在のメモリシステムは負の制約を符号化することができない。
トレーニング不要な偏極グラフメモリであるPolarMemを紹介する。
- 参考スコア(独自算出の注目度): 5.350399160165104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As multimodal agents evolve from passive observers to long-horizon decision-makers, they require memory systems that provide not just information availability but logical verifiability. A fundamental limitation of current architectures is the epistemic asymmetry inherent in probabilistic vision-language models and dense associative memories: they conflate semantic affinity with factual existence and structurally fail to encode negative constraints. To this end, we introduce PolarMem, a training-free Polarized Latent Graph Memory designed to ground agent reasoning in verifiable evidence. PolarMem transforms fuzzy perceptual likelihoods into discrete logical constraints through non-parametric distributional partitioning. Furthermore, it employs a polarized graph topology with orthogonal inhibitory connections to explicitly store verified negation as a primary cognitive state. At inference time, we enforce a logic-dominant retrieval paradigm, suppressing hallucinatory patterns that violate negative constraints. Extensive evaluation across eight frozen Vision--Language Models and six benchmarks demonstrates that PolarMem functions as a robust cognitive system, establishing a foundation for verifiable multimodal agents. Our code is available at https://github.com/czs-ict/PolarMem.
- Abstract(参考訳): マルチモーダルエージェントは受動的観測者から長距離意思決定者へと進化するにつれて、情報可用性だけでなく論理的妥当性も提供するメモリシステムを必要とする。
現在のアーキテクチャの基本的制限は、確率的視覚言語モデルと密接な連想記憶に固有の認識的非対称性である。
この目的のためにPolaMemを紹介した。PolaMemは、検証された証拠を根拠としてエージェント推論を行うために設計された訓練不要のPolaized Latent Graph Memoryである。
PolarMemはファジィ知覚確率を非パラメトリック分布分割により離散論理的制約に変換する。
さらに、直交阻止接続を持つ偏極グラフトポロジーを用いて、検証された否定を第一認知状態として明示的に記憶する。
推論の際には,負の制約に反する幻覚パターンを抑える論理支配型検索パラダイムを施行する。
8つの凍結したビジョンランゲージモデルと6つのベンチマークによる広範囲な評価は、PolarMemが堅牢な認知システムとして機能し、検証可能なマルチモーダルエージェントの基礎を確立していることを示している。
私たちのコードはhttps://github.com/czs-ict/PolarMem.comで利用可能です。
関連論文リスト
- Digital Metabolism: Decoupling Logic from Facts via Regenerative Unlearning -- Towards a Pure Neural Logic Core [4.073707521515039]
デジタル代謝(Digital metabolism)とは、純粋な論理コアを蒸留するためには、標的となる忘れることが必要であるという仮説である。
本稿では,Regenerative Logic-Core Protocol (RLCP)を紹介した。
GSM8Kの実証分析により、「代謝」モデルが自然にシンボリック・チェーン・オブ・シンクの足場を採用することが明らかとなった。
論文 参考訳(メタデータ) (2026-01-15T19:21:16Z) - Forgetting as a Feature: Cognitive Alignment of Large Language Models [39.146761527401424]
本研究では,Large Language Models (LLM) が過去の情報を体系的に忘れていることを示す。
人間の記憶力学からインスピレーションを得て,LLM推論を指数的崩壊によって支配される確率的記憶過程としてモデル化する。
これらの観測に基づいて,人間のような記憶崩壊を模倣するエビデンス統合を形作る軽量な戦略である確率的記憶促進法を提案する。
論文 参考訳(メタデータ) (2025-12-28T10:43:00Z) - MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models [49.32415342913976]
マルチモーダルモデルにおけるCoT推論の視覚的グラウンドリングと論理的コヒーレンスを探索するための診断ベンチマークであるMM-CoTを紹介する。
MM-CoT上での先進的な視覚言語モデルの評価を行い,最も先進的なシステムでさえも苦戦し,生成頻度と真の推論忠実さの相違が明らかとなった。
論文 参考訳(メタデータ) (2025-12-09T04:13:31Z) - More Than Irrational: Modeling Belief-Biased Agents [25.274115351731325]
本稿では,認知的拘束力のあるエージェントに対して,偏見的信念の下で最適に作用する計算合理的(CR)ユーザモデルについて紹介する。
受動的観察から、潜伏するユーザ固有の境界を識別し、バイアスのある信念状態を推定するという課題に対処する。
CRモデルはメモリ容量の異なるレベルに対応する直感的に妥当な振る舞いを生成する。
論文 参考訳(メタデータ) (2025-11-15T21:14:37Z) - Towards Inference-time Scaling for Continuous Space Reasoning [55.40260529506702]
推論時間スケーリングは、大規模言語モデルにおけるテキストベースの推論に有効であることが証明されている。
本稿では,そのような確立された手法が連続空間における推論にうまく適応できるかどうかを考察する。
本研究では,ドロップアウト型サンプリングによる多種多様な推論経路の実現可能性を示す。
論文 参考訳(メタデータ) (2025-10-14T05:53:41Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。