論文の概要: Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips
- arxiv url: http://arxiv.org/abs/2310.00698v1
- Date: Sun, 1 Oct 2023 15:13:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:29:14.200392
- Title: Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips
- Title(参考訳): コミック・フォー・ユビキタス:コミック・ストリップのアクセス可能なテキスト記述の生成
- Authors: Reshma Ramaprasad
- Abstract要約: 我々は、視覚障害者のコミュニティにアクセス可能なコミックストリップの自然言語記述を作成します。
まず、コンピュータビジョン技術を用いて、コミック画像のパネル、文字、テキストに関する情報を抽出する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を計測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comic strips are a popular and expressive form of visual storytelling that
can convey humor, emotion, and information. However, they are inaccessible to
the BLV (Blind or Low Vision) community, who cannot perceive the images,
layouts, and text of comics. Our goal in this paper is to create natural
language descriptions of comic strips that are accessible to the visually
impaired community. Our method consists of two steps: first, we use computer
vision techniques to extract information about the panels, characters, and text
of the comic images; second, we use this information as additional context to
prompt a multimodal large language model (MLLM) to produce the descriptions. We
test our method on a collection of comics that have been annotated by human
experts and measure its performance using both quantitative and qualitative
metrics. The outcomes of our experiments are encouraging and promising.
- Abstract(参考訳): コミックストリップ(Comic strips)は、ユーモア、感情、情報を伝える視覚的なストーリーテリングの人気のある表現形式である。
しかし、BLV(Blind or Low Vision)コミュニティにはアクセスできないため、コミックのイメージ、レイアウト、テキストを認識できない。
本研究の目的は,視覚障害者のコミュニティに手軽にアクセス可能な漫画の自然言語記述を作ることである。
まず,マンガ画像のパネル,キャラクタ,テキストに関する情報をコンピュータビジョン技術で抽出し,その情報を追加コンテキストとして,マルチモーダル大言語モデル(mllm)を用いて記述を生成する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を測定する。
私たちの実験の結果は励まされ、有望です。
関連論文リスト
- One missing piece in Vision and Language: A Survey on Comics Understanding [13.766672321462435]
この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:26:26Z) - Toward accessible comics for blind and low vision readers [0.059584784039407875]
我々は,既存のコンピュータビジョンと光学的文字認識技術を用いて,漫画のストリップ画像コンテンツから接地コンテキストを構築することを提案する。
我々は,文字の出現,姿勢,気分,対話など,文脈対応のパネル記述による漫画の脚本を生成する。
論文 参考訳(メタデータ) (2024-07-11T07:50:25Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks
from The New Yorker Caption Contest [70.40189243067857]
大きめのニューラルネットワークがジョークを生成できるようになったが、本当にユーモアを「理解」しているのだろうか?
私たちは、New Yorker Cartoon Caption Contestから派生した3つのタスクでAIモデルに挑戦します。
どちらのモデルも3つのタスクすべてで苦労しています。
論文 参考訳(メタデータ) (2022-09-13T20:54:00Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - ComicGAN: Text-to-Comic Generative Adversarial Network [1.4824891788575418]
テキスト記述に基づいて漫画を合成する新しいテキスト・ツー・イメージGANであるComicGANを実装した。
我々は,提案するComicGANについて,記述からの画像生成と対話からの画像生成という2つのシナリオで広く評価する。
論文 参考訳(メタデータ) (2021-09-19T13:31:32Z) - Automatic Comic Generation with Stylistic Multi-page Layouts and
Emotion-driven Text Balloon Generation [57.10363557465713]
本稿では,人間の介入なしにビデオから漫画を自動生成するシステムを提案する。
サブタイトルとともに入力ビデオが与えられると,まずサブタイトルを解析して情報抽出を行う。
そこで,複数のページにまたがる画像の割り当てが可能な,新しい自動マルチページフレームワークレイアウトを提案する。
論文 参考訳(メタデータ) (2021-01-26T22:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。