Fugu-MT 論文翻訳(概要): Image Embedding Sampling Method for Diverse Captioning

論文の概要: Image Embedding Sampling Method for Diverse Captioning

arxiv url: http://arxiv.org/abs/2502.10118v1
Date: Fri, 14 Feb 2025 12:33:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.723629
Title: Image Embedding Sampling Method for Diverse Captioning
Title（参考訳）: 横型キャプションのための画像埋め込みサンプリング法
Authors: Sania Waheed, Na Min An,
Abstract要約: 本稿では,異なる画像領域に明示的に参加することで,キャプションの多様性と情報提供性を向上する学習自由フレームワークを提案する。提案手法は,画像キャプションのアライメント,セマンティックな整合性,多様性の観点から,より大規模なモデルに匹敵する性能を実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image Captioning for state-of-the-art VLMs has significantly improved over time; however, this comes at the cost of increased computational complexity, making them less accessible for resource-constrained applications such as mobile devices and assistive technologies. Alternatively, smaller VLMs prioritize high-level scene descriptions, overlooking finer details that contribute to a richer understanding of an image. In this paper, we introduce a training-free framework that enhances caption diversity and informativeness by explicitly attending to distinct image regions using a comparably small VLM, BLIP, as the backbone. Our approach leverages structured segmentation to produce hierarchical representations that capture both global and localized semantics. Without requiring additional model training, we demonstrate that our method allows smaller VLMs to achieve performance comparable to larger models in terms of image-caption alignment, semantic integrity, and diversity. We evaluate our framework on MSCOCO, Flickr30k, and Nocaps test datasets, achieving a Div-2 score of 0.735, 0.750, and 0.748 for each dataset respectively, while maintaining strong image-caption relevancy and semantic integrity with the human-annotated captions.
Abstract（参考訳）: 最先端のVLMのイメージキャプションは、時間とともに大幅に改善されているが、計算の複雑さが増大し、モバイルデバイスやアシスト技術のようなリソース制限されたアプリケーションでは利用できない。あるいは、より小さなVLMは高レベルのシーン記述を優先し、画像のより深い理解に寄与する細部を見渡す。本稿では,比較的小さなVLM,BLIPをバックボーンとして,画像領域に明示的に参加することで,キャプションの多様性と情報伝達性を向上する学習自由フレームワークを提案する。我々のアプローチは構造化セグメンテーションを利用して、グローバルおよびローカライズドセマンティクスの両方をキャプチャする階層表現を生成する。付加的なモデルトレーニングを必要とせずに、我々は、より小さなVLMが、画像キャプションのアライメント、セマンティックな整合性、多様性の点で、より大きなモデルに匹敵する性能を達成できることを実証した。 MSCOCO,Flickr30k,Nocapsの各テストデータセットに対するフレームワークの評価を行い,Div-2スコアの0.735,0.750,0.748をそれぞれ達成した。

関連論文リスト

ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文参考訳（メタデータ） (2025-10-14T17:58:10Z)
Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
Cross-Domain Few-Shot Learning via Multi-View Collaborative Optimization with Vision-Language Models [37.63573703440172]
自然画像やCLIPなどの言語データに基づいて事前訓練された視覚言語モデル(VLM)は、数ショットの画像認識タスクにおいて大きな可能性を秘めている。本稿では,VLM のための新しい微調整手法である Consistency-guided Multi-view Collaborative Optimization (CoMuCo) を提案する。
論文参考訳（メタデータ） (2025-08-18T12:00:09Z)
Adding simple structure at inference improves Vision-Language Compositionality [15.785274903236663]
本稿では,イメージとキャプションが与えられた場合,イメージを小さな作物に分割する,推論時に単純な構造を加えることを提案する。提案手法は,評価された視覚言語モデルの性能をトレーニングなしで継続的に改善する。
論文参考訳（メタデータ） (2025-06-11T13:06:25Z)
Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos [53.723410664944566]
本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。 SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
論文参考訳（メタデータ） (2025-06-05T17:51:39Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。 Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。 SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文参考訳（メタデータ） (2025-01-24T06:42:06Z)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation [36.43428388918294]
ペア化されたテキストイメージデータのWebスケールトレーニングは、ますますマルチモーダルな学習の中心になりつつある。標準的なデータフィルタリングアプローチでは、ミスマッチしたテキストイメージペアを削除できない。画像参照なしで字幕テキストを評価し,その具体性を計測する新しい指標である画像キャプション具体性を提案する。
論文参考訳（メタデータ） (2024-03-02T20:36:10Z)
Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文参考訳（メタデータ） (2023-04-03T05:07:49Z)
Exploring Semantic Relationships for Unpaired Image Captioning [40.401322131624866]
視覚領域と言語領域を高レベルな意味情報でブリッジすることで、不適切な画像キャプションを実現する。画像の理解を深めるため,セマンティック・リレーション・エクスプローラーを提案する。提案手法は,CIDErのスコアが8%に向上したペア設定下で,5つの強いベースラインを向上する。
論文参考訳（メタデータ） (2021-06-20T09:10:11Z)
Learning Deformable Image Registration from Optimization: Perspective, Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文参考訳（メタデータ） (2020-04-30T03:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。