論文の概要: Beyond Vision: Contextually Enriched Image Captioning with Multi-Modal Retrieva
- arxiv url: http://arxiv.org/abs/2512.20042v1
- Date: Tue, 23 Dec 2025 04:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.745176
- Title: Beyond Vision: Contextually Enriched Image Captioning with Multi-Modal Retrieva
- Title(参考訳): Beyond Vision:マルチモーダル・レトリエバによるコンテクストに富んだ画像キャプション
- Authors: Nguyen Lam Phu Quy, Pham Phu Hoa, Tran Chi Nguyen, Dao Sy Duy Minh, Nguyen Hoang Minh Ngoc, Huynh Trung Kiet,
- Abstract要約: 実世界のイメージキャプションは文脈の深さを欠いていることが多い。
このギャップは、ジャーナリズム、教育、デジタルアーカイブのような領域における画像理解の有効性を制限する。
視覚入力を外部のテキスト知識で拡張するマルチモーダルパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world image captions often lack contextual depth, omitting crucial details such as event background, temporal cues, outcomes, and named entities that are not visually discernible. This gap limits the effectiveness of image understanding in domains like journalism, education, and digital archives, where richer, more informative descriptions are essential. To address this, we propose a multimodal pipeline that augments visual input with external textual knowledge. Our system retrieves semantically similar images using BEIT-3 (Flickr30k-384 and COCO-384) and SigLIP So-384, reranks them using ORB and SIFT for geometric alignment, and extracts contextual information from related articles via semantic search. A fine-tuned Qwen3 model with QLoRA then integrates this context with base captions generated by Instruct BLIP (Vicuna-7B) to produce event-enriched, context-aware descriptions. Evaluated on the OpenEvents v1 dataset, our approach generates significantly more informative captions compared to traditional methods, showing strong potential for real-world applications requiring deeper visual-textual understanding
- Abstract(参考訳): 実世界のイメージキャプションは文脈的な深さを欠くことが多く、事象の背景、時間的手がかり、結果、視覚的に識別できない名前付きエンティティといった重要な詳細を省略する。
このギャップは、ジャーナリズム、教育、デジタルアーカイブのような領域における画像理解の有効性を制限する。
そこで本稿では,視覚入力を外部のテキスト知識で拡張するマルチモーダルパイプラインを提案する。
本システムは,BEIT-3(Flickr30k-384およびCOCO-384)とSigLIP So-384を用いて意味的に類似した画像を検索し,ORBとSIFTを用いて幾何学的アライメントを行い,意味検索により関連記事から文脈情報を抽出する。
QLoRAで微調整されたQwen3モデルは、インストラクションBLIP(Vicuna-7B)によって生成されたベースキャプションとこのコンテキストを統合し、イベントに富んだコンテキスト対応の記述を生成する。
OpenEvents v1データセットに基づいて評価した結果,従来の手法と比較して,より情報的なキャプションを生成し,より深い視覚的テキスト理解を必要とする実世界のアプリケーションに強い可能性を示した。
関連論文リスト
- ReCap: Event-Aware Image Captioning with Article Retrieval and Semantic Gaussian Normalization [9.914251544971686]
ReCapは、イベント強化された画像検索とキャプションのための新しいパイプラインである。
関連する記事からより広い文脈情報を取り入れ、物語に富んだキャプションを生成する。
我々のアプローチは、標準的な視覚言語モデルの限界に対処する。
論文 参考訳(メタデータ) (2025-09-01T08:48:33Z) - EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions [11.853877966862086]
自由形キャプションからのイベントベースの画像検索は重要な課題である。
本稿では,高密度な記事検索,イベント認識言語モデルの再ランク付け,効率的な画像収集を併用した多段階検索フレームワークを提案する。
本システムは,EVENTA 2025 Grand Challengeにおけるトラック2のプライベートテストセットにおいて,トップ1のスコアを達成している。
論文 参考訳(メタデータ) (2025-08-31T09:03:25Z) - OmniCaptioner: One Captioner to Rule Them All [33.98387155732322]
細かなテキスト記述を生成するための多目的視覚キャプションフレームワークを提案する。
低レベルのピクセル情報を意味的にリッチなテキスト表現に変換することで、われわれのフレームワークは視覚とテキストのモダリティのギャップを埋める。
OmniCaptionerの汎用性と適応性は、言語と視覚的モダリティのギャップを埋めるための新たな視点を提供することができると信じています。
論文 参考訳(メタデータ) (2025-04-09T17:58:58Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
まず、VLLMに対して、視覚的文脈に関連して、被験者の明らかな感情を自然言語で記述するように促す。
第二に、記述は視覚入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用される。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Generating image captions with external encyclopedic knowledge [1.452875650827562]
我々は、画像固有の百科事典データを広範囲に活用するエンドツーエンドのキャプション生成システムを構築した。
われわれのアプローチは、画像位置を用いて、外部知識ベースで関連するオープンドメインの事実を識別する新しい方法を含む。
我々のシステムは、自然に生成された知識に富んだキャプションを持つ新しいデータセットで訓練され、テストされている。
論文 参考訳(メタデータ) (2022-10-10T16:09:21Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。