Fugu-MT 論文翻訳(概要): Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

論文の概要: Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

arxiv url: http://arxiv.org/abs/2505.08971v1
Date: Tue, 13 May 2025 21:27:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-15 21:44:09.297812
Title: Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training
Title（参考訳）: 画像関連トークンの優先順位付けは、ビジョンランゲージ事前学習を促進する
Authors: Yangyi Chen, Hao Peng, Tong Zhang, Heng Ji,
Abstract要約: PRIORは、NTP損失の差分重み付けによって画像関連トークンを優先する、視覚言語による事前学習手法である。 NTPと比較した場合, 平均相対的改善率は19%, 8%であった。
参考スコア（独自算出の注目度）: 78.60953331455565
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In standard large vision-language models (LVLMs) pre-training, the model typically maximizes the joint probability of the caption conditioned on the image via next-token prediction (NTP); however, since only a small subset of caption tokens directly relates to the visual content, this naive NTP unintentionally fits the model to noise and increases the risk of hallucination. We present PRIOR, a simple vision-language pre-training approach that addresses this issue by prioritizing image-related tokens through differential weighting in the NTP loss, drawing from the importance sampling framework. PRIOR introduces a reference model-a text-only large language model (LLM) trained on the captions without image inputs, to weight each token based on its probability for LVLMs training. Intuitively, tokens that are directly related to the visual inputs are harder to predict without the image and thus receive lower probabilities from the text-only reference LLM. During training, we implement a token-specific re-weighting term based on the importance scores to adjust each token's loss. We implement PRIOR in two distinct settings: LVLMs with visual encoders and LVLMs without visual encoders. We observe 19% and 8% average relative improvement, respectively, on several vision-language benchmarks compared to NTP. In addition, PRIOR exhibits superior scaling properties, as demonstrated by significantly higher scaling coefficients, indicating greater potential for performance gains compared to NTP given increasing compute and data.
Abstract（参考訳）: 標準的な大規模視覚言語モデル(LVLM)の事前トレーニングでは、このモデルは通常、次のトーケン予測(NTP)によって画像上に条件付けられたキャプションの結合確率を最大化するが、キャプショントークンの小さなサブセットだけが視覚内容に直接関連しているため、このナイーブNTPは意図せずモデルをノイズに適合させ、幻覚のリスクを増大させる。我々は,NPP損失の差分重み付けによる画像関連トークンの優先順位付けによってこの問題に対処する,シンプルな視覚言語事前学習手法であるPRIORを提案する。 PRIORは、LVLMトレーニングの確率に基づいて各トークンを重み付けするために、画像入力なしでキャプションに基づいてトレーニングされた参照モデル、テキストのみの大規模言語モデル(LLM)を導入する。直感的には、視覚入力に直接関連しているトークンは、画像なしでは予測が困難であり、テキストのみの参照LPMから低い確率を受け取る。トレーニング中、重要度スコアに基づいてトークン固有の再重み付け項を実装し、トークンの損失を調整する。我々はPRIORを視覚エンコーダ付きLVLMと視覚エンコーダなしLVLMの2つの異なる設定で実装する。 NTPと比較した場合, 平均相対的改善率は19%, 8%であった。さらに、PRIORは、非常に高いスケーリング係数で示されるように、優れたスケーリング特性を示し、計算量やデータの増加によって得られるNTPと比較して、パフォーマンス向上の可能性が高いことを示す。

関連論文リスト

Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文参考訳（メタデータ） (2025-06-27T14:55:40Z)
Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文参考訳（メタデータ） (2025-06-11T08:46:55Z)
Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文参考訳（メタデータ） (2024-11-26T09:36:02Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
Weakly Supervised Vision-and-Language Pre-training with Relative Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文参考訳（メタデータ） (2023-05-24T18:10:24Z)
Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。提案手法は, 事前学習法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2022-11-20T12:10:53Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-27T21:16:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。