論文の概要: Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning
- arxiv url: http://arxiv.org/abs/2603.24257v1
- Date: Wed, 25 Mar 2026 12:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.294716
- Title: Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning
- Title(参考訳): 永続的および意味的に整合したオブジェクトキャプションのためのメモリ拡張型ビジョンランゲージエージェント
- Authors: Tommaso Galliena, Stefano Rosa, Tommaso Apicella, Pietro Morerio, Alessio Del Bue, Lorenzo Natale,
- Abstract要約: VLM(Vision-Language Models)はしばしば、視点を越えて同じオブジェクトの一貫性のない記述をもたらす。
本稿では,データアソシエーション,オブジェクトキャプション,探索ポリシを同時に処理するメモリ拡張型ビジョンランゲージエージェントを提案する。
標準キャプションスコアでは+11.86%、ベースラインモデルでは+7.39%の改善が見られた。
- 参考スコア(独自算出の注目度): 27.48318501076437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) often yield inconsistent descriptions of the same object across viewpoints, hindering the ability of embodied agents to construct consistent semantic representations over time. Previous methods resolved inconsistencies using offline multi-view aggregation or multi-stage pipelines that decouple exploration, data association, and caption learning, with limited capacity to reason over previously observed objects. In this paper, we introduce a unified, memory-augmented Vision-Language agent that simultaneously handles data association, object captioning, and exploration policy within a single autoregressive framework. The model processes the current RGB observation, a top-down explored map, and an object-level episodic memory serialized into object-level tokens, ensuring persistent object identity and semantic consistency across extended sequences. To train the model in a self-supervised manner, we collect a dataset in photorealistic 3D environments using a disagreement-based policy and a pseudo-captioning model that enforces consistency across multi-view caption histories. Extensive evaluation on a manually annotated object-level test set, demonstrate improvements of up to +11.86% in standard captioning scores and +7.39% in caption self-similarity over baseline models, while enabling scalable performance through a compact scene representation. Code, model weights, and data are available at https://github.com/hsp-iit/epos-vlm
- Abstract(参考訳): VLM(Vision-Language Models)は、しばしば視点を越えて同じオブジェクトの一貫性のない記述をもたらし、時間とともに一貫した意味表現を構築するエージェントの能力を妨げる。
従来の手法では、オフラインのマルチビューアグリゲーションや、探索、データアソシエーション、キャプション学習を分離するマルチステージパイプラインを使用して、以前に観測されたオブジェクトを推論する能力に制限のある不整合を解決していた。
本稿では,データアソシエーション,オブジェクトキャプション,探索ポリシを単一の自己回帰フレームワーク内で同時に処理する,メモリ拡張型ビジョンランゲージエージェントを提案する。
モデルは、現在のRGB観測、トップダウン探索マップ、オブジェクトレベルのトークンにシリアライズされたオブジェクトレベルのエピソードメモリを処理する。
自己教師型でモデルを訓練するために,多視点キャプション履歴間の一貫性を強制する疑似キャプションモデルを用いて,写真リアリスティックな3D環境におけるデータセットを収集する。
手動でアノテートされたオブジェクトレベルのテストセットの大規模な評価では、標準的なキャプションスコアが+11.86%、ベースラインモデルよりもキャプションの自己相似性が+7.39%向上し、コンパクトなシーン表現によってスケーラブルなパフォーマンスを実現した。
コード、モデルウェイト、データはhttps://github.com/hsp-iit/epos-vlmで入手できる。
関連論文リスト
- Object-Centric Framework for Video Moment Retrieval [15.916994168542345]
既存のモーメント検索手法の多くは、主にグローバルな視覚情報と意味情報をエンコードするフレームレベルの特徴の時間的シーケンスに依存している。
特に、オブジェクトレベルの時間的ダイナミクスは、主に見過ごされ、オブジェクトレベルの推論を必要とするシナリオにおける既存のアプローチを制限する。
提案手法は,まずシーングラフを用いてクエリ関連オブジェクトを抽出し,次にビデオフレームからグラフを抽出して,それらのオブジェクトとその関係を表現する。
シーングラフに基づいて、リッチな視覚情報や意味情報をエンコードするオブジェクトレベルの特徴系列を構築し、時間とともにオブジェクト間の関係時間的ローカライゼーションをモデル化するビデオトラックレット変換器で処理する。
論文 参考訳(メタデータ) (2025-12-20T17:44:53Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions [27.48318501076437]
既存のキャプションモデルを微調整するための3段階フレームワークを提案する。
まず、エージェントが環境を探索し、ノイズの多い画像キャプチャーペアを収集する。
次に、各オブジェクトインスタンスに対する一貫した擬似カプセルがコンセンサスを介して蒸留される。
最後に、これらの擬似カプセルは、市販のキャプションモデルを微調整するために使用される。
論文 参考訳(メタデータ) (2025-04-11T13:41:17Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - VisMin: Visual Minimal-Change Understanding [7.226130826257802]
Visual Minimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは、2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
我々は,大規模言語モデルと拡散モデルを用いた自動フレームワークを構築し,続いて人間のアノテーションによる厳密な4段階の検証プロセスを構築した。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。