論文の概要: Task-Adaptive Retrieval over Agentic Multi-Modal Web Histories via Learned Graph Memory
- arxiv url: http://arxiv.org/abs/2604.07863v1
- Date: Thu, 09 Apr 2026 06:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.736994
- Title: Task-Adaptive Retrieval over Agentic Multi-Modal Web Histories via Learned Graph Memory
- Title(参考訳): 学習したグラフメモリによるエージェント型マルチモーダルWeb履歴上のタスク適応検索
- Authors: Saman Forouzandeh, Kamal Berahmand, Mahdi Jalili,
- Abstract要約: ACGMは、モダリティ特異的な崩壊を伴う異種時間ダイナミクスを捕捉する。
ACGMは検索品質を textbf82.7 nDCG@10 (+9.3 over GPT-4o, $p0.001$) と textbf89.2% Precision@10 (+7.7) に改善し、19の強い密度、再ランク、マルチモーダル、グラフベースのベースラインを上回った。
- 参考スコア(独自算出の注目度): 12.639898988889174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving relevant observations from long multi-modal web interaction histories is challenging because relevance depends on the evolving task state, modality (screenshots, HTML text, structured signals), and temporal distance. Prior approaches typically rely on static similarity thresholds or fixed-capacity buffers, which fail to adapt relevance to the current task context. We propose \textbf{ACGM}, a learned graph-memory retriever that constructs \emph{task-adaptive} relevance graphs over agent histories using policy-gradient optimization from downstream task success. ACGM captures heterogeneous temporal dynamics with modality-specific decay (visual decays $4.3\times$ faster than text: $λ_v{=}0.47$ vs.\ $λ_x{=}0.11$) and learns sparse connectivity (3.2 edges/node), enabling efficient $O(\log T)$ retrieval. Across WebShop, VisualWebArena, and Mind2Web, ACGM improves retrieval quality to \textbf{82.7 nDCG@10} (+9.3 over GPT-4o, $p{<}0.001$) and \textbf{89.2\% Precision@10} (+7.7), outperforming 19 strong dense, re-ranking, multi-modal, and graph-based baselines. Code to reproduce our results is available at{\color{blue}\href{https://github.com/S-Forouzandeh/ACGM-Agentic-Web}{Saman Forouzandeh}}.
- Abstract(参考訳): 長いマルチモーダルなWebインタラクション履歴から関連する観測結果を取得することは、タスク状態やモダリティ(スクリーンショット、HTMLテキスト、構造化信号)、時間的距離に依存するため、難しい。
従来のアプローチでは、静的な類似性しきい値や固定容量バッファを頼りにしており、現在のタスクコンテキストに関連性がない。
本稿では、下流タスクの成功から政策段階の最適化を用いて、エージェント履歴の上に \emph{task-adaptive} 関連グラフを構成する学習グラフメモリレトリバーである \textbf{ACGM} を提案する。
ACGMは、モダリティ特異的な減衰を伴う異種時間ダイナミクスをキャプチャする(視覚的減衰は4.3\times$がテキストより高速である:$λ_v{=}0.47$ vs。
\ $λ_x{=}0.11$) でスパース接続(3.2 edges/node)を学び、効率の良い$O(\log T)$検索を可能にする。
WebShop、VisualWebArena、Mind2Web全体で、ACGMは検索品質を、GPT-4o、$p{<}0.001$) と \textbf{89.2\% 精度@10} (+7.7) で改善し、19の強い密度、再ランク、マルチモーダル、グラフベースのベースラインを上回っている。
結果の再現コードは{\color{blue}\href{https://github.com/S-Forouzandeh/ACGM-Agentic-Web}{Saman Forouzandeh}}で公開されている。
関連論文リスト
- APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - GAAMA: Graph Augmented Associative Memory for Agents [0.0]
GAAMAは、概念を介する階層的知識グラフを構成するグラフ拡張連想記憶システムである。
LoCoMo-10ベンチマーク(10のマルチセッション会話で1,540の質問)では、GAAMAは78.9%の平均報酬を獲得し、調整されたRAGベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-29T23:33:38Z) - $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文 参考訳(メタデータ) (2026-01-29T17:52:54Z) - When Do Tools and Planning Help LLMs Think? A Cost- and Latency-Aware Benchmark [0.0]
大規模言語モデルは推論時間計画と推論を改善するための外部ツールにますます依存している。
グラフ構造化知識(Event-QA)に対するイベント中心質問応答と,Reddit ChangeMyView(CMV)における説得応答生成の2つの現実的な設定で,この挙動をベンチマークする。
LangChainとLangGraphを使って、タスク固有のツールを備えたプラン-実行-再計画エージェントとワンショットベースラインを比較します。
論文 参考訳(メタデータ) (2026-01-06T02:24:29Z) - Graph of Agents: Principled Long Context Modeling by Emergent Multi-Agent Collaboration [9.151759069858924]
本稿では,モデルに依存しない長期コンテキストモデリング問題を圧縮問題として定式化するフレームワークを提案する。
この目的を最大化する入力依存の協調構造を動的に構築するグラフ・オブ・エージェント(GoA)を提案する。
GoAはLongBenchの128KコンテキストウィンドウであるLlama 3.1 8Bを超え、有効コンテキスト長が劇的に増加した。
論文 参考訳(メタデータ) (2025-09-26T04:15:40Z) - GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models [58.08177466768262]
大規模言語モデル(LLM)では、複雑なロングコンテクストのタスクに対処するためには、ロングコンテクストの能力が不可欠である。
グラフをグラフに構造化し、エージェントを使ってグラフを自律的に探索することで、長いテキストを扱うように設計されたグラフベースのエージェントシステムであるGraphReaderを紹介する。
LV-Evalデータセットの実験結果によると、GraphReaderは4kコンテキストウィンドウを使用して、16kから256kまでのコンテキスト長で一貫してGPT-4-128kを上回っている。
論文 参考訳(メタデータ) (2024-06-20T17:57:51Z) - Once Upon a $\textit{Time}$ in $\textit{Graph}$: Relative-Time
Pretraining for Complex Temporal Reasoning [96.03608822291136]
我々は時間の性質を生かし、時間軸に沿った事象の相対的な配置に基づくグラフ構造の構築を提案する。
グラフビューにインスパイアされたRemeMoを提案する。これは2つの文間の時間関係をモデル化することによって、時間的に観察されたすべての事実を明示的に接続する。
実験の結果、RemeMoは複数の時間的質問応答データセット上でベースラインT5よりも優れていた。
論文 参考訳(メタデータ) (2023-10-23T08:49:00Z) - HiSMatch: Historical Structure Matching based Temporal Knowledge Graph
Reasoning [59.38797474903334]
本稿では,textbfHistorical textbfStructure textbfMatching (textbfHiSMatch)モデルを提案する。
クエリと候補エンティティの履歴構造に含まれる意味情報をキャプチャするために、2つの構造エンコーダを適用する。
6つのベンチマークデータセットの実験では、提案されたHiSMatchモデルが、最先端のベースラインと比較して最大5.6%のパフォーマンス改善を達成している。
論文 参考訳(メタデータ) (2022-10-18T09:39:26Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。