論文の概要: ImageSet2Text: Describing Sets of Images through Text
- arxiv url: http://arxiv.org/abs/2503.19361v1
- Date: Tue, 25 Mar 2025 05:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:29.836035
- Title: ImageSet2Text: Describing Sets of Images through Text
- Title(参考訳): ImageSet2Text: 画像の集合をテキストで記述する
- Authors: Piera Riccio, Francesco Galati, Kajetan Schweighofer, Noa Garcia, Nuria Oliver,
- Abstract要約: 画像集合の自然言語記述を自動的に生成するために、視覚言語基盤モデルを活用する新しいアプローチであるImageSet2Textを紹介する。
ImageSet2Textは、イメージサブセットから重要な概念を反復的に抽出し、構造化グラフにエンコードし、外部知識グラフとCLIPベースの検証を使用して洞察を洗練する。
我々は、ImageSet2Textの精度、完全性、可読性、全体的な品質に関する記述を評価し、既存の視覚言語モデルと比較し、大規模なグループ画像キャプションのための新しいデータセットを導入した。
- 参考スコア(独自算出の注目度): 17.336422962134918
- License:
- Abstract: We introduce ImageSet2Text, a novel approach that leverages vision-language foundation models to automatically create natural language descriptions of image sets. Inspired by concept bottleneck models (CBMs) and based on visual-question answering (VQA) chains, ImageSet2Text iteratively extracts key concepts from image subsets, encodes them into a structured graph, and refines insights using an external knowledge graph and CLIP-based validation. This iterative process enhances interpretability and enables accurate and detailed set-level summarization. Through extensive experiments, we evaluate ImageSet2Text's descriptions on accuracy, completeness, readability and overall quality, benchmarking it against existing vision-language models and introducing new datasets for large-scale group image captioning.
- Abstract(参考訳): 画像集合の自然言語記述を自動的に生成するために、視覚言語基盤モデルを活用する新しいアプローチであるImageSet2Textを紹介する。
概念ボトルネックモデル(CBM)にインスパイアされたImageSet2Textは、イメージサブセットから重要な概念を反復的に抽出し、構造化グラフにエンコードし、外部知識グラフとCLIPベースの検証を使用して洞察を洗練する。
この反復的プロセスは解釈可能性を高め、正確かつ詳細な設定レベルの要約を可能にする。
広範にわたる実験を通じて、ImageSet2Textの精度、完全性、可読性、全体的な品質に関する記述を評価し、既存の視覚言語モデルと比較し、大規模なグループ画像キャプションのための新しいデータセットを導入する。
関連論文リスト
- Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions [30.08331098481379]
我々は、画像テクスチャライゼーション(IT)と呼ばれる革新的なフレームワークを提案する。
ITは、既存のマルチモーダル大言語モデル(MLLM)と複数のビジョンエキスパートモデルを活用することで、高品質な画像記述を自動的に生成する。
LLaVA-7Bは、IT処理による記述のトレーニングの恩恵を受け、よりリッチな画像記述を生成する能力の向上を図っている。
論文 参考訳(メタデータ) (2024-06-11T17:37:45Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。