論文の概要: Reasoning to Attend: Try to Understand How Token Works
- arxiv url: http://arxiv.org/abs/2412.17741v1
- Date: Mon, 23 Dec 2024 17:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:44.876647
- Title: Reasoning to Attend: Try to Understand How <SEG> Token Works
- Title(参考訳): Attendへの理由:<SEG>トークンがどのように機能するかを理解する
- Authors: Rui Qian, Xin Yin, Dejing Dou,
- Abstract要約: 我々は、$texttSEG>$ tokenが画像とテキストのペア内のセマンティックな類似性に寄与していることを示す。
本稿では,高活性点の誘導の下で,LMMの高強度な$textbfREA$soning機能を実現するREADを提案する。
- 参考スコア(独自算出の注目度): 44.33848900059659
- License:
- Abstract: Current Large Multimodal Models (LMMs) empowered visual grounding typically rely on $\texttt{<SEG>}$ token as a text prompt to jointly optimize the vision-language model (e.g., LLaVA) and the downstream task-specified model (\eg, SAM). However, we observe that little research has looked into how it works.In this work, we first visualize the similarity maps, which are obtained by computing the semantic similarity between the $\texttt{<SEG>}$ token and the image token embeddings derived from the last hidden layer in both the LLaVA encoder and SAM decoder. Intriguingly, we have found that a striking consistency holds in terms of activation responses in the similarity map,which reveals that what $\texttt{<SEG>}$ token contributes to is the semantic similarity within image-text pairs. Specifically, $\texttt{<SEG>}$ token, a placeholder expanded in text vocabulary, extensively queries among individual tokenized image patches to match the semantics of an object from text to the paired image while the Large Language Models (LLMs) are being fine-tuned. Upon the above findings, we present READ, which facilitates LMMs' resilient $\textbf{REA}$soning capability of where to atten$\textbf{D}$ under the guidance of highly activated points borrowed from similarity maps. Remarkably, READ features an intuitive design, Similarity as Points module (SasP), which can be seamlessly applied to $\texttt{<SEG>}$-like paradigms in a plug-and-play fashion.Also, extensive experiments have been conducted on the ReasonSeg and RefCOCO(+/g) datasets. To validate whether READ suffers from catastrophic forgetting of previous skills after fine-tuning, we further assess its generation ability on an augmented FP-RefCOCO(+/g) dataset. All codes and models are publicly available at https://github.com/rui-qian/READ.
- Abstract(参考訳): 現在のLMM(Large Multimodal Models)は、通常、テキストプロンプトとして$\texttt{<SEG>}$トークンに依存し、視覚言語モデル(例えばLLaVA)と下流タスク特定モデル(\eg, SAM)を共同で最適化する。
LLaVAエンコーダとSAMデコーダの両方の最後の隠蔽層から得られた画像トークン埋め込みと$\texttt{<SEG>}$トークンのセマンティックな類似性を計算することによって得られる類似性マップを最初に視覚化する。
これは$\texttt{<SEG>}$トークンがもたらす意味的類似性が、画像とテキストのペア内の意味的類似性であることを示している。
具体的には、テキスト語彙で拡張されたプレースホルダーである$\texttt{<SEG>}$ tokenは、テキストからペアイメージへのオブジェクトのセマンティクスを一致させるために、個々のトークン化されたイメージパッチの間で広範囲にクエリされ、Large Language Model(LLM)が微調整されている。
以上の結果から,LMMsのレジリエントな$\textbf{REA}$soning機能を実現するREADを提案する。
注目すべきは、READは直感的な設計で、$\texttt{<SEG>}$-likeのパラダイムをプラグイン・アンド・プレイでシームレスに適用できるSimisity as Points Module (SasP)を特徴としている。
微調整後,READが過去の技術を破滅的に忘れてしまうかどうかを検証するため,拡張FP-RefCOCO(+/g)データセットを用いて,その生成能力を更に評価した。
すべてのコードとモデルはhttps://github.com/rui-qian/READ.comで公開されている。
関連論文リスト
- VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens [20.37803751979975]
テキストを埋め込みモデルに入力すると、得られたテキストの埋め込みは入力テキストのキートークンと一致します。
この現象は普遍的であり,モデルアーキテクチャ,トレーニング戦略,埋め込み手法の影響を受けないことを示す。
最初のプリンシパルコンポーネントを調整することで、テキストの埋め込みをキートークンと整列することができます。
論文 参考訳(メタデータ) (2024-06-25T08:55:12Z) - Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - TokenFlow: Rethinking Fine-grained Cross-modal Alignment in
Vision-Language Retrieval [30.429340065755436]
我々は, 細粒度クロスモーダルアライメントのためのモデルに依存しない新しい定式化を考案した。
最適輸送理論に着想を得て,提案手法のインスタンス化であるemphTokenFlowを紹介した。
論文 参考訳(メタデータ) (2022-09-28T04:11:05Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。