Fugu-MT 論文翻訳(概要): Do Pre-trained Vision-Language Models Encode Object States?

論文の概要: Do Pre-trained Vision-Language Models Encode Object States?

arxiv url: http://arxiv.org/abs/2409.10488v1
Date: Mon, 16 Sep 2024 17:22:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 14:38:40.474631
Title: Do Pre-trained Vision-Language Models Encode Object States?
Title（参考訳）: 事前学習型視覚言語モデルでは対象状態は符号化されるか?
Authors: Kaleb Newman, Shijie Wang, Yuan Zang, David Heffren, Chen Sun,
Abstract要約: 視覚言語モデル(VLM)がWebスケールデータにオブジェクト状態をエンコードするかどうかを検討する。コントラストおよび生成目的を訓練したモデルを含む,9つのオープンソースVLMを評価した。オブジェクト状態のエンコードを改善するための3つの領域を同定する。
参考スコア（独自算出の注目度）: 13.4206464539947
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For a vision-language model (VLM) to understand the physical world, such as cause and effect, a first step is to capture the temporal dynamics of the visual world, for example how the physical states of objects evolve over time (e.g. a whole apple into a sliced apple). Our paper aims to investigate if VLMs pre-trained on web-scale data learn to encode object states, which can be extracted with zero-shot text prompts. We curate an object state recognition dataset ChangeIt-Frames, and evaluate nine open-source VLMs, including models trained with contrastive and generative objectives. We observe that while these state-of-the-art vision-language models can reliably perform object recognition, they consistently fail to accurately distinguish the objects' physical states. Through extensive experiments, we identify three areas for improvements for VLMs to better encode object states, namely the quality of object localization, the architecture to bind concepts to objects, and the objective to learn discriminative visual and language encoders on object states. Data and code are released.
Abstract（参考訳）: 原因や効果などの物理世界を理解する視覚言語モデル(VLM)にとって、最初のステップは、例えば物体の物理的状態が時間とともにどのように進化するか(リンゴ全体をスライスしたリンゴに分割するなど)を視覚世界の時間的ダイナミクスを捉えることである。本研究の目的は,Web スケールで事前学習した VLM がオブジェクト状態のエンコードを学習し,ゼロショットテキストプロンプトで抽出できるかどうかを検討することである。オブジェクト状態認識データセットChangeIt-Framesをキュレートし、コントラストおよび生成目的で訓練されたモデルを含む9つのオープンソースVLMを評価する。これらの最先端のビジョン言語モデルは、オブジェクト認識を確実に行うことができるが、オブジェクトの物理的状態を正確に識別することができない。広範にわたる実験を通じて,オブジェクトのローカライゼーションの質,概念をオブジェクトにバインドするアーキテクチャ,オブジェクト状態上の識別的視覚的および言語的エンコーダの学習という,オブジェクト状態の符号化を改善するためのVLMの改善のための3つの領域を同定した。データとコードはリリースされます。

関連論文リスト

How Can Objects Help Video-Language Understanding? [16.63183488540909]
本稿では,任意のコンピュータビジョンアルゴリズムを利用して視覚表現を抽出・構造化するフレームワークであるObjectMLを紹介する。 6つのビデオ質問ベンチマークの広範な評価を通じて、対象中心表現の明示的な統合が依然として必要であることを確認した。意外なことに、連続的、構造化されたオブジェクト情報を定量化し、それらをプレーンテキストとして表現する単純なアプローチが最善である。
論文参考訳（メタデータ） (2025-04-10T04:59:28Z)
Re-Aligning Language to Visual Objects with an Agentic Workflow [73.73778652260911]
言語に基づくオブジェクト検出は、視覚オブジェクトを言語表現に合わせることを目的としている。近年の研究では視覚言語モデル(VLM)を活用して視覚オブジェクトに対する人間的な表現を自動的に生成している。画像やテキストのプロンプトを適応的に調整することで,視覚オブジェクトに言語を適応させるエージェントワークフローを提案する。
論文参考訳（メタデータ） (2025-03-30T16:41:12Z)
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method [10.748210940033484]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は大きな成功を収めた。リモートセンシング画像と従来の光学画像とは大きく異なるため、これらのモデルは理解の難しさに直面している。リモートセンシング画像におけるオブジェクト検出へのVLMの適用について検討する。
論文参考訳（メタデータ） (2025-03-11T08:02:54Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文参考訳（メタデータ） (2024-10-09T17:55:02Z)
Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文参考訳（メタデータ） (2024-07-18T20:29:49Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。 OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文参考訳（メタデータ） (2024-02-27T01:48:19Z)
Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文参考訳（メタデータ） (2023-09-05T20:21:03Z)
DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文参考訳（メタデータ） (2023-06-24T21:05:02Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。