論文の概要: Image Captioning as an Assistive Technology: Lessons Learned from VizWiz
2020 Challenge
- arxiv url: http://arxiv.org/abs/2012.11696v1
- Date: Mon, 21 Dec 2020 21:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 08:11:42.552252
- Title: Image Captioning as an Assistive Technology: Lessons Learned from VizWiz
2020 Challenge
- Title(参考訳): 補助技術としてのイメージキャプション - VizWiz 2020 Challengeから学んだ教訓
- Authors: Pierre Dognin, Igor Melnyk, Youssef Mroueh, Inkit Padhi, Mattia
Rigotti, Jarret Ross, Yair Schiff, Richard A. Young, Brian Belgodere
- Abstract要約: 受賞した2020年キャプションコンペティションの理論と工学を詳述した作品です。
我々の研究は、補助画像キャプションシステムの改善に向けた一歩となる。
- 参考スコア(独自算出の注目度): 25.218195374028756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning has recently demonstrated impressive progress largely owing
to the introduction of neural network algorithms trained on curated dataset
like MS-COCO. Often work in this field is motivated by the promise of
deployment of captioning systems in practical applications. However, the
scarcity of data and contexts in many competition datasets renders the utility
of systems trained on these datasets limited as an assistive technology in
real-world settings, such as helping visually impaired people navigate and
accomplish everyday tasks. This gap motivated the introduction of the novel
VizWiz dataset, which consists of images taken by the visually impaired and
captions that have useful, task-oriented information. In an attempt to help the
machine learning computer vision field realize its promise of producing
technologies that have positive social impact, the curators of the VizWiz
dataset host several competitions, including one for image captioning. This
work details the theory and engineering from our winning submission to the 2020
captioning competition. Our work provides a step towards improved assistive
image captioning systems.
- Abstract(参考訳): 画像キャプションは最近、MS-COCOのようなキュレートデータセットでトレーニングされたニューラルネットワークアルゴリズムの導入によって、目覚ましい進歩を見せている。
この分野での作業は、実際的な応用におけるキャプションシステムの導入の約束によって動機づけられることが多い。
しかし、多くの競合データセットにおけるデータとコンテキストの不足は、視覚障害者が日常のタスクをナビゲートして達成するのを助けるなど、現実の環境で補助技術として制限されたこれらのデータセットでトレーニングされたシステムの実用性を反映している。
このギャップは、視覚障害者によって撮影された画像と、タスク指向の情報を持つキャプションからなる、新しいVizWizデータセットの導入を動機付けている。
VizWizデータセットのキュレーターは、機械学習コンピュータビジョンフィールドが社会にポジティブな影響を及ぼす技術を生み出すという約束を実現するのを助けるために、画像キャプションを含むいくつかのコンペを開催している。
この研究は、2020年のキャプションコンテストの優勝論文から、その理論とエンジニアリングを詳述している。
我々の研究は、補助画像キャプションシステムの改善に向けた一歩となる。
関連論文リスト
- Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review [0.0]
本稿では、入力画像のテキスト提案、キャプション、記述をアノテータに提供するためのAI支援型ディープラーニング画像アノテーションシステムについて検討する。
各種データセットをレビューし,AI補助アノテーションシステムのトレーニングと評価にどのように貢献するかを検討する。
有望な可能性にもかかわらず、テキスト出力機能を備えたAIアシスト画像アノテーションに関する公開作業は限られている。
論文 参考訳(メタデータ) (2024-06-28T22:56:17Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - Bench-Marking And Improving Arabic Automatic Image Captioning Through
The Use Of Multi-Task Learning Paradigm [0.0]
本稿ではアラビア画像キャプションの性能を高める手法と手法について検討する。
マルチタスク学習と事前学習語埋め込みの使用により、画像キャプションの品質が著しく向上した。
しかし、提示された結果から、アラビア語の字幕化は、英語と比較してまだ遅れていることがわかる。
論文 参考訳(メタデータ) (2022-02-11T06:29:25Z) - Describing image focused in cognitive and visual details for visually
impaired people: An approach to generating inclusive paragraphs [2.362412515574206]
ウェブナーなど、オンラインコンテンツに表示される画像コンテキストの理解など、特定のタスクをサポートするサービスが不足している。
本稿では,高密度キャプション手法とフィルタを併用したウェビナー画像のコンテキスト生成手法を提案し,ドメイン内のキャプションに適合する手法と抽象要約タスクのための言語モデルを提案する。
論文 参考訳(メタデータ) (2022-02-10T21:20:53Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。