論文の概要: MMA: Multimodal Memory Agent
- arxiv url: http://arxiv.org/abs/2602.16493v1
- Date: Wed, 18 Feb 2026 14:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.615326
- Title: MMA: Multimodal Memory Agent
- Title(参考訳): MMA:マルチモーダルメモリエージェント
- Authors: Yihao Lu, Wanru Cheng, Zeyu Zhang, Hao Tang,
- Abstract要約: 長期的なエージェントは外部メモリに依存するが、類似性の表面は不安定、低クレーディビリティ、あるいは矛盾するアイテムであり、過信のエラーを引き起こす可能性がある。
本稿では,検索した各メモリ項目に信頼性スコアを割り当てるマルチモーダルメモリエージェント(MMA)を提案する。
このフレームワークを用いて、エージェントが基盤モデルから潜在的な視覚バイアスを継承する方法を明らかにする「ビジュアルプレースボ効果」を明らかにする。
- 参考スコア(独自算出の注目度): 12.124790246837485
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long-horizon multimodal agents depend on external memory; however, similarity-based retrieval often surfaces stale, low-credibility, or conflicting items, which can trigger overconfident errors. We propose Multimodal Memory Agent (MMA), which assigns each retrieved memory item a dynamic reliability score by combining source credibility, temporal decay, and conflict-aware network consensus, and uses this signal to reweight evidence and abstain when support is insufficient. We also introduce MMA-Bench, a programmatically generated benchmark for belief dynamics with controlled speaker reliability and structured text-vision contradictions. Using this framework, we uncover the "Visual Placebo Effect", revealing how RAG-based agents inherit latent visual biases from foundation models. On FEVER, MMA matches baseline accuracy while reducing variance by 35.2% and improving selective utility; on LoCoMo, a safety-oriented configuration improves actionable accuracy and reduces wrong answers; on MMA-Bench, MMA reaches 41.18% Type-B accuracy in Vision mode, while the baseline collapses to 0.0% under the same protocol. Code: https://github.com/AIGeeksGroup/MMA.
- Abstract(参考訳): ロングホライゾンのマルチモーダルエージェントは外部記憶に依存するが、類似性に基づく検索は、しばしば不安定、低クレーダビリティ、または矛盾するアイテムを表面化し、過度に信頼されたエラーを引き起こす。
本稿では,MMA(Multimodal Memory Agent)を提案する。MMA(Multimodal Memory Agent)は,ソースの信頼性,時間的減衰,コンフリクト対応ネットワークのコンセンサスを組み合わせた動的信頼性スコアを付与する。
また、MMA-Benchは、話者の信頼性と構造化されたテキストビジョンの矛盾を制御した、信念力学のためのプログラム的に生成されたベンチマークである。
このフレームワークを用いて、RAGベースのエージェントが基礎モデルから潜在的な視覚バイアスを継承する方法を明らかにする「ビジュアルプレースボ効果」を明らかにする。
FEVERでは、MMAはばらつきを35.2%減らし、選択性を向上させるとともに、ベースラインの精度と一致し、ロコモでは、安全指向の構成によりアクション可能な精度が向上し、間違った答えが得られ、MMA-Benchでは、MMAはビジョンモードで41.18%のタイプBの精度に到達し、ベースラインは同じプロトコルで0.0%に崩壊する。
コード:https://github.com/AIGeeksGroup/MMA。
関連論文リスト
- Knowing When to Answer: Adaptive Confidence Refinement for Reliable Audio-Visual Question Answering [15.39457034915546]
我々は,textitReliable Audio-Visual Question Answering (mathcalR$-AVQA) に公式な問題を定式化する。
本稿では,$mathcalR$-AVQAの性能を高める軽量な手法であるAdaptive Confidence Refinement (ACR)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:35:33Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Tri-LLM Cooperative Federated Zero-Shot Intrusion Detection with Semantic Disagreement and Trust-Aware Aggregation [5.905949608791961]
本稿では,言語に基づくセマンティック管理をフェデレーション最適化に組み込んだ,セマンティックス駆動のフェデレーションIDSフレームワークを提案する。
このフレームワークは、目に見えない攻撃パターンに対して80%以上のゼロショット検出精度を達成し、類似性に基づくベースラインと比較してゼロデイ識別を10%以上改善する。
論文 参考訳(メタデータ) (2026-01-30T16:38:05Z) - CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - Defending the Edge: Representative-Attention for Mitigating Backdoor Attacks in Federated Learning [7.808916974942399]
不均一エッジデバイスは、多種多様で非独立で、同一に分散された(非IID)データを生成する。
本稿では, 悪意のあるクライアントと良識を区別するための, FeRA という, 表現力に基づく防衛機構を提案する。
本評価では,エッジデバイスに典型的な非IIDデータ分散に挑戦するなど,さまざまなFLシナリオにおけるFeRAの堅牢性を示す。
論文 参考訳(メタデータ) (2025-05-15T13:44:32Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。