論文の概要: Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning
- arxiv url: http://arxiv.org/abs/2311.01016v1
- Date: Thu, 2 Nov 2023 06:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:41:22.891477
- Title: Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning
- Title(参考訳): 効率的な画像探索とユーザガイド画像キャプチャのためのビジュアル分析
- Authors: Yiran Li, Junpeng Wang, Prince Aboagye, Michael Yeh, Yan Zheng, Liang
Wang, Wei Zhang, Kwan-Liu Ma
- Abstract要約: 事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
- 参考スコア(独自算出の注目度): 35.47078178526536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in pre-trained large-scale language-image models have
ushered in a new era of visual comprehension, offering a significant leap
forward. These breakthroughs have proven particularly instrumental in
addressing long-standing challenges that were previously daunting. Leveraging
these innovative techniques, this paper tackles two well-known issues within
the realm of visual analytics: (1) the efficient exploration of large-scale
image datasets and identification of potential data biases within them; (2) the
evaluation of image captions and steering of their generation process. On the
one hand, by visually examining the captions automatically generated from
language-image models for an image dataset, we gain deeper insights into the
semantic underpinnings of the visual contents, unearthing data biases that may
be entrenched within the dataset. On the other hand, by depicting the
association between visual contents and textual captions, we expose the
weaknesses of pre-trained language-image models in their captioning capability
and propose an interactive interface to steer caption generation. The two parts
have been coalesced into a coordinated visual analytics system, fostering
mutual enrichment of visual and textual elements. We validate the effectiveness
of the system with domain practitioners through concrete case studies with
large-scale image datasets.
- Abstract(参考訳): 事前訓練された大規模言語画像モデルの最近の進歩は、視覚理解の新しい時代を告げ、大きな進歩をもたらした。
これらのブレークスルーは、かつて勇敢だった長年の課題に対処するのに特に役立っている。
本稿では,これらの革新的手法を活用することで,画像解析の領域でよく知られた2つの課題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
一方,画像データセットの言語画像モデルから自動生成するキャプションを視覚的に検討することにより,視覚コンテンツの意味的基盤に対する深い洞察を得るとともに,データセット内に絡み合う可能性のあるデータバイアスを探索する。
一方,視覚コンテンツとテキストキャプションの関係を描写することにより,事前学習した言語画像モデルのキャプション能力における弱点を明らかにし,キャプション生成のための対話インタフェースを提案する。
2つの部分は協調した視覚分析システムに結合され、視覚的要素とテキスト的要素の相互濃縮が促進されている。
大規模画像データセットを用いた具体的なケーススタディにより,ドメイン実践者とのシステムの有効性を検証する。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Dual Modalities of Text: Visual and Textual Generative Pre-training [35.82610192457444]
本稿では,RGB画像としてレンダリングされた4億以上の文書のコーパスを事前学習する,画素ベースの自動回帰言語モデルのための新しい事前学習フレームワークを提案する。
本手法は,次のパッチ予測による視覚データと,次のトークン予測によるテキストデータの両方を分類ヘッドで処理する,二重モードトレーニング方式を特徴とする。
論文 参考訳(メタデータ) (2024-04-16T16:36:50Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。