Fugu-MT 論文翻訳(概要): Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment

論文の概要: Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment

arxiv url: http://arxiv.org/abs/2405.17871v2
Date: Tue, 05 Nov 2024 02:26:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.911059
Title: Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment
Title（参考訳）: 画像を見る:コントラストアライメントによる視覚相関の優先順位付け
Authors: Xin Xiao, Bohong Wu, Jiacong Wang, Chunyuan Li, Xun Zhou, Haoyuan Guo,
Abstract要約: 視覚言語モデル(VLM)における既存の画像-テキストのモダリティアライメントは、各テキストトークンを自己回帰的に等しく扱う。我々は、その視覚的相関に基づいて、各テキストトークンに対して異なるコントリビューションを割り当てることを提唱する。コントラストアライメント(Contrastive ALignment, CAL)は、視覚的に相関したトークンのトレーニングを優先する、シンプルで効果的な再重み付け戦略である。
参考スコア（独自算出の注目度）: 40.63340635482609
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing image-text modality alignment in Vision Language Models (VLMs) treats each text token equally in an autoregressive manner. Despite being simple and effective, this method results in sub-optimal cross-modal alignment by over-emphasizing the text tokens that are less correlated with or even contradictory with the input images. In this paper, we advocate for assigning distinct contributions for each text token based on its visual correlation. Specifically, we present by contrasting image inputs, the difference in prediction logits on each text token provides strong guidance of visual correlation. We therefore introduce Contrastive ALignment (CAL), a simple yet effective re-weighting strategy that prioritizes training visually correlated tokens. Our experimental results demonstrate that CAL consistently improves different types of VLMs across different resolutions and model sizes on various benchmark datasets. Importantly, our method incurs minimal additional computational overhead, rendering it highly efficient compared to alternative data scaling strategies. Codes are available at https://github.com/foundation-multimodal-models/CAL.
Abstract（参考訳）: 視覚言語モデル(VLM)における既存の画像-テキストのモダリティアライメントは、各テキストトークンを自己回帰的に等しく扱う。単純かつ効果的であるにもかかわらず、入力画像と相関しにくい、あるいは矛盾しないテキストトークンを過度に強調することにより、最適でない相互アライメントを実現する。本稿では,その視覚的相関に基づいて,各テキストトークンに対して異なるコントリビューションを割り当てることを提唱する。具体的には、画像入力を対比することにより、各テキストトークン上の予測ロジットの違いが視覚的相関の強いガイダンスを提供する。コントラストアライメント(Contrastive ALignment, CAL)は、視覚的に相関したトークンのトレーニングを優先する、シンプルで効果的な再重み付け戦略である。実験の結果、CALは様々なベンチマークデータセットにおいて、様々な解像度とモデルサイズで異なるタイプのVLMを一貫して改善することを示した。重要な点として,本手法は計算オーバーヘッドを最小限に抑え,代替データスケーリング戦略と比較して高い効率で処理する。コードはhttps://github.com/foundation-multimodal-models/CALで公開されている。

関連論文リスト

When LLaVA Meets Objects: Token Composition for Vision-Language-Models [31.554057603168214]
Mask-LLaVAは、様々なレベルの視覚的特徴を活用して、自己回帰視覚言語モデルのためのコンパクトで情報に富んだ視覚表現を作成するフレームワークである。すべてのトークンはトレーニング中に使用されるが、結果として得られるモデルは、特にテスト時にマスクベースのオブジェクトトークンの数を柔軟に減少させることができる。分析の結果,マルチレベル機能を組み合わせることで,より少ないトークンで効率的な学習が可能であり,テスト時に動的トークン選択を可能とし,性能を向上できることがわかった。
論文参考訳（メタデータ） (2026-02-04T18:50:46Z)
ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文参考訳（メタデータ） (2025-10-14T17:58:10Z)
TrimTokenator: Towards Adaptive Visual Token Pruning for Large Multimodal Models [4.779482139419908]
テキストトークンと意味的に視覚トークンを除去する相互情報に基づくトークンプルーニング戦略を導入する。 LLaVA-15-7BやLLaVA-7Bといったモデルでは,テキストトークンを88.9%削減しながら高い性能を維持している。
論文参考訳（メタデータ） (2025-08-30T02:43:50Z)
VISA: Group-wise Visual Token Selection and Aggregation via Graph Summarization for Efficient MLLMs Inference [76.00113788838334]
Group-wise textbfVIsual token textbfSelection and textbfAggregation (VISA) 本手法は,視覚トークンを圧縮しながら,より視覚的な情報を保存できる。 VISAの有効性を検証するため,LLaVA-1.5,LLaVA-NeXT,Video-LLaVAの総合的な実験を行った。
論文参考訳（メタデータ） (2025-08-25T10:07:07Z)
Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-06-23T17:59:14Z)
Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs [43.94713826224876]
VLM(Vision-Language Model)は、視覚的な入力に関する質問に答える能力を示すが、テキスト上で類似のタスクを実行する際の精度は高い。異なるモードのテキスト回路を同定し,比較することにより,この精度ギャップについて検討する。これを解決するために、後層の視覚データトークンの表現を以前のレイヤに戻します。
論文参考訳（メタデータ） (2025-06-10T17:59:21Z)
FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL [78.59912944698992]
微細なテキスト画像のセマンティックアライメントを強化するためにFocusDiffを提案する。我々は、類似した全体表現を持つペアテキストと画像の新しいデータセットを構築するが、局所的な意味論を区別する。提案手法は,既存のテキスト・画像・ベンチマークにおける最先端性能を実現し,PairCompの先行手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-06-05T18:36:33Z)
Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training [78.60953331455565]
PRIORは、NTP損失の差分重み付けによって画像関連トークンを優先する、視覚言語による事前学習手法である。 NTPと比較した場合, 平均相対的改善率は19%, 8%であった。
論文参考訳（メタデータ） (2025-05-13T21:27:52Z)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
ソフトテキストトークンを用いたSoftREPAと呼ばれる軽量なコントラスト微調整方式を導入する。本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳（メタデータ） (2025-03-11T10:14:22Z)
Rethinking Homogeneity of Vision and Text Tokens in Large Vision-and-Language Models [29.611769371733672]
本稿では,視覚とテキストの埋め込みを別々に処理する新しい手法であるDe Attention (D-Attn)を提案する。 D-Attn は視覚と視覚の自己注意を対角化し、計算を $mathcalO(|V|2)$から $mathcalO(|V|)$ for $|V|$ に還元する。
論文参考訳（メタデータ） (2025-02-04T00:46:11Z)
Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。 MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)
Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文参考訳（メタデータ） (2024-07-19T16:11:15Z)
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models [21.17975741743583]
近年、CLIP(CLIP)のような事前訓練された視覚言語モデル(VLM)を用いて、クエリイメージ全体をより細かいテキスト記述と整合させることで、ゼロショットのパフォーマンスを著しく向上させることが発見されている。本稿では, より詳細な記述は, 画像全体よりも, クエリ画像の局所的な領域とより効果的に整合する傾向があることを実証的に見出した。
論文参考訳（メタデータ） (2024-06-05T04:08:41Z)
Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-01-18T10:28:45Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。提案手法は, 事前学習法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2022-11-20T12:10:53Z)
Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文参考訳（メタデータ） (2022-10-12T17:54:32Z)
TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval [30.429340065755436]
我々は, 細粒度クロスモーダルアライメントのためのモデルに依存しない新しい定式化を考案した。最適輸送理論に着想を得て,提案手法のインスタンス化であるemphTokenFlowを紹介した。
論文参考訳（メタデータ） (2022-09-28T04:11:05Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。