論文の概要: Concadia: Tackling image accessibility with context
- arxiv url: http://arxiv.org/abs/2104.08376v1
- Date: Fri, 16 Apr 2021 21:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 11:40:58.255613
- Title: Concadia: Tackling image accessibility with context
- Title(参考訳): concadia:コンテキストで画像アクセシビリティに取り組む
- Authors: Elisa Kreiss, Noah D. Goodman, Christopher Potts
- Abstract要約: 公開のウィキペディアベースのコーパスであるConcadiaを紹介し,96,918個の画像と対応する英語記述,キャプション,周辺状況について述べる。
キャプションは記述の代用ではなく、効果的な記述を作成するための有用なシグナルを提供することができることを示す。
これらの実験はまた、画像データによって引き起こされるアクセシビリティ問題に対処する上で、Concadiaが強力なツールになり得ることを示す。
- 参考スコア(独自算出の注目度): 28.98062115786146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Images have become an integral part of online media. This has enhanced
self-expression and the dissemination of knowledge, but it poses serious
accessibility challenges. Adequate textual descriptions are rare. Captions are
more abundant, but they do not consistently provide the needed descriptive
details, and systems trained on such texts inherit these shortcomings. To
address this, we introduce the publicly available Wikipedia-based corpus
Concadia, which consists of 96,918 images with corresponding English-language
descriptions, captions, and surrounding context. We use Concadia to further
characterize the commonalities and differences between descriptions and
captions, and this leads us to the hypothesis that captions, while not
substitutes for descriptions, can provide a useful signal for creating
effective descriptions. We substantiate this hypothesis by showing that image
captioning systems trained on Concadia benefit from having caption embeddings
as part of their inputs. These experiments also begin to show how Concadia can
be a powerful tool in addressing the underlying accessibility issues posed by
image data.
- Abstract(参考訳): 画像はオンラインメディアの不可欠な部分となっている。
これは自己表現と知識の普及を増大させたが、深刻なアクセシビリティ問題を引き起こす。
文章の記述は稀である。
キャプションは豊富だが、必要な記述の詳細は一貫して提供されておらず、そのようなテキストで訓練されたシステムはこれらの欠点を継承する。
そこで本研究では, 96,918枚の画像と対応する英文記述, キャプション, および周辺文脈からなるwikipediaベースのコーパス・コンカディアについて紹介する。
concadia を用いて記述とキャプションの共通性と相違をさらに特徴付けし,キャプションは記述の代わりにはならないが,効果的な記述を作成する上で有用なシグナルを与えることができるという仮説を導いた。
本仮説は,コンカディアで訓練された画像キャプションシステムにおいて,インプットの一部としてキャプション埋め込みを行うことによるメリットを示すものである。
これらの実験はまた、画像データによって引き起こされるアクセシビリティ問題に対処する上で、Concadiaが強力なツールになり得ることを示す。
関連論文リスト
- Updating CLIP to Prefer Descriptions Over Captions [21.909877614471178]
私たちはCLIPモデルを更新し、キャプションよりも高いスコアを記述に割り当てる。
このモデルは、移動能力を維持しながら盲人や低ビジョンの人々の判断と相関する。
論文 参考訳(メタデータ) (2024-06-12T20:24:51Z) - What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。
本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文 参考訳(メタデータ) (2022-09-25T22:56:04Z) - Show, Interpret and Tell: Entity-aware Contextualised Image Captioning
in Wikipedia [10.21762162291523]
本稿では,文脈知識を統合することで,ウィキペディア画像のキャプションを行う新しいタスクを提案する。
具体的には、ウィキペディアの記事やウィキメディアの画像、それに付随する記述を共同で推論するモデルを作成します。
論文 参考訳(メタデータ) (2022-09-21T16:14:15Z) - Journalistic Guidelines Aware News Image Captioning [8.295819830685536]
ニュース記事画像キャプションは、ニュース記事画像の記述的および情報的キャプションを生成することを目的としている。
一般的に画像の内容を記述する従来の画像キャプションとは異なり、ニュースキャプションは画像の内容を記述するために名前付きエンティティに大きく依存する。
本稿では,ジャーナリストが追従するキャプションガイドラインによって動機付けられた,この課題に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-07T04:49:50Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - Pragmatic Issue-Sensitive Image Captioning [11.998287522410404]
課題感性画像キャプション(ISIC)を提案する。
ISICは、ターゲット画像とイシューを付与したキャプションシステムであり、関連する情報を特定する方法で分割された画像の集合である。
我々は,ISICが視覚質問応答の関連タスクを補完し,強化する方法について述べる。
論文 参考訳(メタデータ) (2020-04-29T20:00:53Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。