論文の概要: Pixel Aligned Language Models
- arxiv url: http://arxiv.org/abs/2312.09237v1
- Date: Thu, 14 Dec 2023 18:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:30:49.903983
- Title: Pixel Aligned Language Models
- Title(参考訳): ピクセル指向言語モデル
- Authors: Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun,
Xiaolong Wang, Cordelia Schmid
- Abstract要約: 我々は、位置を入力または出力として捉えることができる視覚言語モデルを開発した。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
- 参考スコア(独自算出の注目度): 94.32841818609914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have achieved great success in recent years, so as
their variants in vision. Existing vision-language models can describe images
in natural languages, answer visual-related questions, or perform complex
reasoning about the image. However, it is yet unclear how localization tasks,
such as word grounding or referring localization, can be performed using large
language models. In this work, we aim to develop a vision-language model that
can take locations, for example, a set of points or boxes, as either inputs or
outputs. When taking locations as inputs, the model performs
location-conditioned captioning, which generates captions for the indicated
object or region. When generating locations as outputs, our model regresses
pixel coordinates for each output word generated by the language model, and
thus performs dense word grounding. Our model is pre-trained on the Localized
Narrative dataset, which contains pixel-word-aligned captioning from human
attention. We show our model can be applied to various location-aware
vision-language tasks, including referring localization, location-conditioned
captioning, and dense object captioning, archiving state-of-the-art performance
on RefCOCO and Visual Genome. Project page: https://jerryxu.net/PixelLLM .
- Abstract(参考訳): 大規模言語モデルは、ビジョンの変種と同様に、近年で大きな成功を収めている。
既存の視覚言語モデルは自然言語で画像を記述したり、視覚に関連する質問に答えたり、画像に関する複雑な推論を行うことができる。
しかし,大きな言語モデルを用いて,単語の接頭や参照の局所化といった局所化タスクをどのように行うことができるのかは,まだ分かっていない。
本研究の目的は,例えば点やボックスの集合を入力や出力として位置を取ることができる視覚言語モデルを開発することである。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
出力として位置を生成する場合、言語モデルによって生成された各出力語に対する画素座標を回帰し、高密度な単語グラウンドを行う。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
位置対応視覚言語タスクには,位置対応キャプション,高密度オブジェクトキャプション,RefCOCOとVisual Genomeの最先端パフォーマンスのアーカイブなど,様々なタスクが適用可能であることを示す。
プロジェクトページ: https://jerryxu.net/PixelLLM 。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Images in Language Space: Exploring the Suitability of Large Language
Models for Vision & Language Tasks [17.97052348690598]
大規模言語モデルは、ゼロショットまたは少数ショット学習パラダイムを使用して、様々な言語タスクで堅牢なパフォーマンスを示す。
入力としてイメージを付加的に処理できるマルチモーダルモデルは、言語のみのモデルでサイズと一般性に追いつかない。
異なる言語モデルを用いて言語モデルに視覚情報をアクセスできるようにする。
論文 参考訳(メタデータ) (2023-05-23T07:50:36Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Attention-Based Keyword Localisation in Speech using Visual Grounding [32.170748231414365]
我々は,視覚的接地型音声モデルでもキーワードの局所化が可能かどうか検討する。
従来の視覚的基盤モデルよりも注目が大きなパフォーマンス向上をもたらすことを示す。
他の多くの音声画像研究と同様に、不正確な局所化の多くは意味的混乱によるものである。
論文 参考訳(メタデータ) (2021-06-16T15:29:11Z) - Cross-modal Language Generation using Pivot Stabilization for Web-scale
Language Coverage [23.71195344840051]
画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、直接的に損なわれる。
既存の英語アノテーションと機械翻訳版の両方をトレーニング時に直接活用する Pivot-Language Generation Stabilization (PLuGS) というアプローチについて述べる。
PLuGSモデルは,5つの異なる言語を対象とした評価において,他の候補解よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T06:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。