論文の概要: Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.04355v1
- Date: Wed, 04 Feb 2026 09:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.454471
- Title: Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models
- Title(参考訳): 作業記憶におけるテキストの置き換えは可能か? : 視覚言語モデルにおける空間的n-backからの証拠
- Authors: Sichu Liang, Hongyu Zhu, Wenwen Wang, Deyu Zhou,
- Abstract要約: 作業記憶は知的行動の中心的な要素である。
最近の研究では、n-backタスクを使用して、大きな言語モデルで作業メモリのような振る舞いを探索している。
一致したテキストレンダリングや画像レンダリングのグリッドとして表現された空間的n-backタスクに対して,Qwen2.5とQwen2.5-VLを評価する。
- 参考スコア(独自算出の注目度): 24.58621679734274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Working memory is a central component of intelligent behavior, providing a dynamic workspace for maintaining and updating task-relevant information. Recent work has used n-back tasks to probe working-memory-like behavior in large language models, but it is unclear whether the same probe elicits comparable computations when information is carried in a visual rather than textual code in vision-language models. We evaluate Qwen2.5 and Qwen2.5-VL on a controlled spatial n-back task presented as matched text-rendered or image-rendered grids. Across conditions, models show reliably higher accuracy and d' with text than with vision. To interpret these differences at the process level, we use trial-wise log-probability evidence and find that nominal 2/3-back often fails to reflect the instructed lag and instead aligns with a recency-locked comparison. We further show that grid size alters recent-repeat structure in the stimulus stream, thereby changing interference and error patterns. These results motivate computation-sensitive interpretations of multimodal working memory.
- Abstract(参考訳): ワーキングメモリはインテリジェントな振る舞いの中心的なコンポーネントであり、タスク関連情報を保守および更新するための動的ワークスペースを提供する。
最近の研究では、n-backタスクを用いて大きな言語モデルにおけるワーキングメモリのような振る舞いを探索しているが、同じプローブが視覚言語モデルにおけるテキストコードではなく、視覚的に情報を運ぶ場合に、同等の計算を行うかどうかは不明である。
一致したテキストレンダリングや画像レンダリングのグリッドとして表現された空間的n-backタスクに対して,Qwen2.5とQwen2.5-VLを評価する。
条件によっては、モデルは視覚よりも確実に精度が高く、テキストではd'を示す。
これらの違いをプロセスレベルで解釈するために、試行錯誤の証拠を使い、名目上の2/3-backは指示された遅延を反映せず、代わりにrecency-lockedの比較と整合することが多いことに気付く。
さらに、グリッドサイズが刺激流の最近の繰り返し構造を変化させ、干渉やエラーパターンが変化することを示す。
これらの結果は、計算に敏感なマルチモーダルワーキングメモリの解釈を動機付けている。
関連論文リスト
- Controlling Multimodal Conversational Agents with Coverage-Enhanced Latent Actions [62.02112656288921]
強化学習(RL)は、様々な人間とAIの相互作用シナリオにMCAを適用するために広く研究されている。
代わりにRLファインチューニングのためのコンパクト潜在作用空間を学習する。
我々は、ペア化された画像テキストデータとテキストのみのデータの両方を活用して、潜在アクション空間を構築します。
論文 参考訳(メタデータ) (2026-01-12T13:13:24Z) - JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation [22.956416709470503]
Vision-and-Language Navigationでは、自然言語命令と連続的なビデオストリームによってガイドされた、目に見えない環境をナビゲートするために、エンボディエージェントが必要である。
VLNの最近の進歩は、マルチモーダル大規模言語モデルの強力な意味理解によって推進されている。
本稿では,空間幾何学的,視覚的セマンティックメモリを分離,コンパクト,固定サイズのニューラル表現としてモデル化した,二重暗黙的ニューラルメモリを備えた新しいVLNフレームワークであるJanusVLNを提案する。
論文 参考訳(メタデータ) (2025-09-26T16:29:37Z) - Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs [49.42020616826156]
VLM(Vision-Language Model)は、視覚的な入力に関する質問に答える能力を示すが、テキスト上で類似のタスクを実行する際の精度は高い。
異なるモードのテキスト回路を同定し,比較することにより,この精度ギャップについて検討する。
これを解決するために、後層の視覚データトークンの表現を以前のレイヤに戻します。
論文 参考訳(メタデータ) (2025-06-10T17:59:21Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning [9.786907179872815]
視覚と言語の可能性は、いまだに偽造検出に過小評価されている。
顔偽造検出を視覚質問応答(VQA)タスクに変換する方法論が必要である。
このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:16:40Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。