Fugu-MT 論文翻訳(概要): HNC: Leveraging Hard Negative Captions towards Models with Fine-Grained Visual-Linguistic Comprehension Capabilities

論文の概要: HNC: Leveraging Hard Negative Captions towards Models with Fine-Grained Visual-Linguistic Comprehension Capabilities

arxiv url: http://arxiv.org/abs/2605.06157v1
Date: Wed, 06 May 2026 14:01:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.788761
Title: HNC: Leveraging Hard Negative Captions towards Models with Fine-Grained Visual-Linguistic Comprehension Capabilities
Title（参考訳）: HNC: 細粒度視覚言語理解能力を持つモデルへのハードネガティブ・キャプションの活用
Authors: Esra Dönmez, Pascal Tilli, Hsiu-Yu Yang, Thang Vu, Carina Silberer,
Abstract要約: Hard Negative Captions (HNC) は、IMMトレーニング用のホイル付きハードネガティブキャプションを含む自動生成データセットである。診断タスクにおけるミスマッチの検出や、ノイズの多い視覚的入力シナリオ下での堅牢な実行において、モデルのゼロショット能力を改善して、HNCでのトレーニングの有効性を示す。
参考スコア（独自算出の注目度）: 11.816108209604211
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Image-Text-Matching (ITM) is one of the defacto methods of learning generalized representations from a large corpus in Vision and Language (VL). However, due to the weak association between the web-collected image-text pairs, models fail to show a fine-grained understanding of the combined semantics of these modalities. To address this issue we propose Hard Negative Captions (HNC): an automatically created dataset containing foiled hard negative captions for ITM training towards achieving fine-grained cross-modal comprehension in VL. Additionally, we provide a challenging manually-created test set for benchmarking models on a fine-grained cross-modal mismatch task with varying levels of compositional complexity. Our results show the effectiveness of training on HNC by improving the models' zero-shot capabilities in detecting mismatches on diagnostic tasks and performing robustly under noisy visual input scenarios. Also, we demonstrate that HNC models yield a comparable or better initialization for fine-tuning
Abstract（参考訳）: 画像テキストマッチング(ITM)は、視覚と言語(VL)の大きなコーパスから一般化表現を学習するデファクト手法の1つである。しかし、ウェブコレクトされた画像とテキストのペア間の弱い関係のため、モデルはこれらのモダリティの組合せ意味論の微妙な理解を示せなかった。この問題に対処するため、我々は、VLで細粒度のクロスモーダル理解を達成するために、IMMトレーニングのための翼付きハードネガティブキャプションを含むデータセットを自動生成するHNC(Hard Negative Captions)を提案する。さらに、構成複雑性の異なる細粒度のクロスモーダルなミスマッチタスクにおいて、モデルをベンチマークするための手作業によるテストセットも提供します。本研究は,診断タスクにおけるミスマッチの検出や,ノイズの多い視覚的入力シナリオ下での堅牢な動作において,モデルがゼロショット能力を向上させることにより,HNCのトレーニングの有効性を示す。また、HNCモデルが微調整に匹敵するあるいはより良い初期化をもたらすことを示す。

関連論文リスト

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。 546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文参考訳（メタデータ） (2025-11-04T18:00:51Z)
A Visual Leap in CLIP Compositionality Reasoning through Generation of Counterfactual Sets [26.167194142428475]
視覚言語モデル(VLM)は、高品質な画像テキストデータが不足しているため、しばしば構成的推論に苦しむ。手動のアノテーションを使わずに反実データを自動的に生成するブロックベース拡散手法を提案する。提案手法は,既存の手法に比べてトレーニングデータを大幅に少なくしながら,複数のベンチマークにまたがる最先端の結果を達成している。
論文参考訳（メタデータ） (2025-07-07T06:47:10Z)
Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models [16.405694961196925]
視覚言語モデル(VLM)はマルチモーダルタスク、特に構成推論(CR)タスクに必須である。既存の手法は主にテキストベースのハードネガティブサンプルを生成することによってモデルを微調整する。 AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
論文参考訳（メタデータ） (2025-05-21T14:28:43Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-03-04T07:10:31Z)
CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-02-06T18:43:48Z)
Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文参考訳（メタデータ） (2023-11-30T13:22:15Z)
Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。 CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文参考訳（メタデータ） (2023-06-15T03:26:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。