論文の概要: Binding Visual Features Point by Point
- arxiv url: http://arxiv.org/abs/2605.25427v1
- Date: Mon, 25 May 2026 04:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.294441
- Title: Binding Visual Features Point by Point
- Title(参考訳): 視覚的特徴をポイントで結合する
- Authors: Udith Haputhanthri, Declan Campbell, Rim Assouel, Jonathan D. Cohen, Taylor W. Webb,
- Abstract要約: 我々は、ポイント・バイ・テキストへの学習が内部視覚探索ルーチンを誘導することを示す。
また、微調整によって新たなタスクにポインティング動作を一般化することも見出した。
- 参考スコア(独自算出の注目度): 6.577814524465175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite success on standard benchmarks, vision language models display persistent failures on tasks involving processing of multi-object scenes, including many tasks that are relatively easy for humans. Recent work has found that these failures may stem from a basic inability to accurately bind object features in-context, a challenge that is referred to as the "binding problem" in cognitive science and neuroscience. The human visual system is thought to solve this binding problem via serial processing, attending to individual objects one at a time so as to avoid interference from other objects. Recent work has proposed "pointing" -- the use of explicit spatial coordinates to refer to objects -- as an analogous solution for vision language models, and found that it improves performance on challenging multi-object tasks. However, it is unclear $\textit{why}$ (i.e., on a mechanistic or representational level) this approach improves performance, and how directly this relates to serial processing in human vision. Here, we investigate this question. We find that learning to point-via-text induces an internal visual search routine, and we characterize the mechanisms that support this procedure. We also find that pointing behavior can be generalized to new tasks via fine-tuning, and that doing so eliminates binding errors and enables compositional generalization. These results provide a proof-of-principle that serial processing can solve the binding problem for vision language models just as it does for biological vision.
- Abstract(参考訳): 標準ベンチマークの成功にもかかわらず、視覚言語モデルは、人間にとって比較的容易な多くのタスクを含む、多目的シーンの処理を含むタスクに永続的な障害を示す。
近年の研究では、これらの障害は、認知科学や神経科学において「結合問題」と呼ばれる課題である、オブジェクトの特徴を文脈内で正確に結合できないことに起因する可能性がある。
人間の視覚システムは、この結合問題をシリアル処理によって解決し、個々のオブジェクトを1回ずつ参加させて、他のオブジェクトからの干渉を避ける。
近年の研究では、視覚言語モデルに類似したソリューションとして「ポインティング(pointing)」が提案されている。
しかし、$\textit{why}$(例えば、機械的または表現的レベルで)は、このアプローチが性能を改善し、これが人間の視覚におけるシリアル処理とどのように直接関係するかは、不明である。
ここでは、この問題について考察する。
そこで本手法では, テキストによる学習が内部視覚探索ルーチンを誘導し, この処理を支援するメカニズムを特徴付ける。
また,ポインティング動作を微調整により新しいタスクに一般化し,バインディングエラーを排除し,構成的一般化を可能にすることも見出した。
これらの結果は、シリアル処理が生体視覚と同様に視覚言語モデルの結合問題を解くことができることを示す。
関連論文リスト
- Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - Latent Implicit Visual Reasoning [59.39913238320798]
本稿では,視覚的推論トークンの発見と使用をLMMに指示するタスク非依存機構を提案する。
提案手法は直接微調整より優れ,様々な視覚中心のタスクにおいて最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-24T14:59:49Z) - Do VLMs Have Bad Eyes? Diagnosing Compositional Failures via Mechanistic Interpretability [2.1432646818975014]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったタスクの視覚情報とテキスト情報の統合において、顕著なパフォーマンスを示している。
これらのモデルは合成一般化とオブジェクト結合に苦慮する。
我々の研究は、機械的解釈可能性技術を用いて、これらの失敗の根本原因を探究する。
論文 参考訳(メタデータ) (2025-08-20T01:15:28Z) - Understanding the Limits of Vision Language Models Through the Lens of the Binding Problem [37.27516441519387]
現状の視覚言語モデルは、人間がほぼ完璧な精度で実行する基本的多目的推論タスクにおいて、驚くほどの失敗を示します。
我々は、最先端のVLMのファジィ障害の多くは、結合問題に起因するものだと説明でき、これらの障害モードは、ヒト脳における迅速なフィードフォワード処理によって引き起こされる制限と著しく類似していることを発見した。
論文 参考訳(メタデータ) (2024-10-31T22:24:47Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。