論文の概要: TokenFlow: Rethinking Fine-grained Cross-modal Alignment in
Vision-Language Retrieval
- arxiv url: http://arxiv.org/abs/2209.13822v1
- Date: Wed, 28 Sep 2022 04:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:02:54.990620
- Title: TokenFlow: Rethinking Fine-grained Cross-modal Alignment in
Vision-Language Retrieval
- Title(参考訳): TokenFlow:視覚言語検索における細粒度クロスモーダルアライメントの再考
- Authors: Xiaohan Zou, Changqiao Wu, Lele Cheng, Zhongyuan Wang
- Abstract要約: 我々は, 細粒度クロスモーダルアライメントのためのモデルに依存しない新しい定式化を考案した。
最適輸送理論に着想を得て,提案手法のインスタンス化であるemphTokenFlowを紹介した。
- 参考スコア(独自算出の注目度): 30.429340065755436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing methods in vision-language retrieval match two modalities by
either comparing their global feature vectors which misses sufficient
information and lacks interpretability, detecting objects in images or videos
and aligning the text with fine-grained features which relies on complicated
model designs, or modeling fine-grained interaction via cross-attention upon
visual and textual tokens which suffers from inferior efficiency. To address
these limitations, some recent works simply aggregate the token-wise
similarities to achieve fine-grained alignment, but they lack intuitive
explanations as well as neglect the relationships between token-level features
and global representations with high-level semantics. In this work, we rethink
fine-grained cross-modal alignment and devise a new model-agnostic formulation
for it. We additionally demystify the recent popular works and subsume them
into our scheme. Furthermore, inspired by optimal transport theory, we
introduce \emph{TokenFlow}, an instantiation of the proposed scheme. By
modifying only the similarity function, the performance of our method is
comparable to the SoTA algorithms with heavy model designs on major video-text
retrieval benchmarks. The visualization further indicates that \emph{TokenFlow}
successfully leverages the fine-grained information and achieves better
interpretability.
- Abstract(参考訳): 視覚言語検索の既存のほとんどの方法は、十分な情報を見逃し、解釈性に欠けるグローバルな特徴ベクトルを比較したり、画像やビデオのオブジェクトを検出したり、複雑なモデル設計に依存する細かい特徴をテキストに整列させたり、視覚的およびテキスト的トークンに対する相互注意による微粒な相互作用をモデル化することで、2つのモダリティに適合する。
これらの制限に対処するため、最近のいくつかの研究は単にトークンの類似性を集約して細かなアライメントを達成しているが、直感的な説明は欠いている。
本研究では, 細粒度クロスモーダルアライメントを再考し, モデルに依存しない新しい定式化を考案する。
また、最近の人気作品もデミスティフィケーションし、私たちの計画にサブスクライブします。
さらに、最適輸送理論に触発されて、提案手法のインスタンス化である \emph{TokenFlow} を導入する。
類似度関数のみを変更することで,本手法の性能は主要ビデオテキスト検索ベンチマークにおける重モデル設計のsotaアルゴリズムに匹敵する。
可視化はまた、 \emph{TokenFlow} がきめ細かい情報をうまく活用し、より良い解釈性を実現することを示している。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - VisMin: Visual Minimal-Change Understanding [7.226130826257802]
我々は、textbfVisual textbfMinimal-Change Understanding (VisMin)と呼ばれる新しい挑戦的なベンチマークを導入する。
VisMinは2つの画像と2つのキャプションによって正しい画像キャプチャマッチを予測するモデルを必要とする。
CLIPとIdefics2を微調整する大規模なトレーニングデータセットを生成しました。
論文 参考訳(メタデータ) (2024-07-23T18:10:43Z) - Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment [40.63340635482609]
視覚言語モデル(VLM)における既存の画像-テキストのモダリティアライメントは、各テキストトークンを自己回帰的に等しく扱う。
我々は、その視覚的相関に基づいて、各テキストトークンに対して異なるコントリビューションを割り当てることを提唱する。
コントラストアライメント(Contrastive ALignment, CAL)は、視覚的に相関したトークンのトレーニングを優先する、シンプルで効果的な再重み付け戦略である。
論文 参考訳(メタデータ) (2024-05-28T06:44:13Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - SA-VQA: Structured Alignment of Visual and Semantic Representations for
Visual Question Answering [29.96818189046649]
本稿では,視覚とテキストのグラフ表現を扱う構造化アライメントを提案する。
実験結果に示すように,このような構造的アライメントは推論性能を向上させる。
提案したモデルは、事前トレーニングなしで、GQAデータセット上で最先端の手法を上回り、VQA-v2データセット上で非事前トレーニングされた最先端の手法を上回ります。
論文 参考訳(メタデータ) (2022-01-25T22:26:09Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Logic Constrained Pointer Networks for Interpretable Textual Similarity [11.142649867439406]
本稿では, セシネルゲーティング機能を備えた新しいポインターネットワークモデルを導入し, 構成チャンクを整列させる。
両文の相違を等しく補償し、アライメントが双方向であることを保証するために、損失関数によるこのベースモデルを改善する。
このモデルは、チャンクアライメントタスクのためのベンチマークSemEvalデータセットにおいて、97.73と96.32のF1スコアを達成する。
論文 参考訳(メタデータ) (2020-07-15T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。