論文の概要: Toward accessible comics for blind and low vision readers
- arxiv url: http://arxiv.org/abs/2407.08248v2
- Date: Tue, 10 Sep 2024 07:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 22:42:18.496632
- Title: Toward accessible comics for blind and low vision readers
- Title(参考訳): 視覚障害者向けのアクセシビリティ・コミック
- Authors: Christophe Rigaud, Jean-Christophe Burie, Samuel Petit,
- Abstract要約: 我々は,既存のコンピュータビジョンと光学的文字認識技術を用いて,漫画のストリップ画像コンテンツから接地コンテキストを構築することを提案する。
我々は,文字の出現,姿勢,気分,対話など,文脈対応のパネル記述による漫画の脚本を生成する。
- 参考スコア(独自算出の注目度): 0.059584784039407875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work explores how to fine-tune large language models using prompt engineering techniques with contextual information for generating an accurate text description of the full story, ready to be forwarded to off-the-shelve speech synthesis tools. We propose to use existing computer vision and optical character recognition techniques to build a grounded context from the comic strip image content, such as panels, characters, text, reading order and the association of bubbles and characters. Then we infer character identification and generate comic book script with context-aware panel description including character's appearance, posture, mood, dialogues etc. We believe that such enriched content description can be easily used to produce audiobook and eBook with various voices for characters, captions and playing sound effects.
- Abstract(参考訳): 本研究は,全ストーリーの正確なテキスト記述を生成するために,文脈情報を用いた素早い工学的手法を用いて,大規模言語モデルを微調整する方法を探求する。
本稿では,既存のコンピュータビジョンと光学文字認識技術を用いて,パネル,文字,テキスト,読み順,バブルと文字の関連性など,漫画のストリップ画像コンテンツから背景となるコンテキストを構築することを提案する。
そして、文字識別を推論し、文字の外観、姿勢、気分、対話などを含む文脈対応パネル記述による漫画の脚本を生成する。
このようなリッチなコンテンツ記述は、文字、キャプション、演奏効果の様々な声でオーディオブックや電子書籍を作成するのに容易に利用できると信じている。
関連論文リスト
- Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips [0.0]
我々は、視覚障害者のコミュニティにアクセス可能なコミックストリップの自然言語記述を作成します。
まず、コンピュータビジョン技術を用いて、コミック画像のパネル、文字、テキストに関する情報を抽出する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を計測する。
論文 参考訳(メタデータ) (2023-10-01T15:13:48Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - PromptTTS: Controllable Text-to-Speech with Text Descriptions [32.647362978555485]
文体と内容の両方を入力としてプロンプトを取り、対応する音声を合成するテキスト音声合成システム(TTS)を開発した。
PromptTTSはスタイルエンコーダとコンテンツエンコーダで構成され、プロンプトから対応する表現を抽出する。
実験により, PromptTTSは高精度なスタイル制御と高音質の音声を生成可能であることが示された。
論文 参考訳(メタデータ) (2022-11-22T10:58:38Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z) - Automatic Comic Generation with Stylistic Multi-page Layouts and
Emotion-driven Text Balloon Generation [57.10363557465713]
本稿では,人間の介入なしにビデオから漫画を自動生成するシステムを提案する。
サブタイトルとともに入力ビデオが与えられると,まずサブタイトルを解析して情報抽出を行う。
そこで,複数のページにまたがる画像の割り当てが可能な,新しい自動マルチページフレームワークレイアウトを提案する。
論文 参考訳(メタデータ) (2021-01-26T22:15:15Z) - Text-Free Image-to-Speech Synthesis Using Learned Segmental Units [24.657722909094662]
画像の自然な音声キャプションを直接流用する最初のモデルを提案する。
我々は、画像キャプションモジュールと音声合成モジュールを、独立したサブワード音声ユニットのセットで接続する。
Flickr8k音声キャプションデータセットと、人気のMSCOCOデータセットのために収集された音声キャプションの新しいコーパスについて実験を行います。
論文 参考訳(メタデータ) (2020-12-31T05:28:38Z) - Transcription-Enriched Joint Embeddings for Spoken Descriptions of
Images and Videos [4.419800664096478]
画像, 音声, テキストの3つの同時モーダルを組み合わせ, 独自の埋め込み表現を学習するための効果的な手法を提案する。
EPIC-Kitchen と Places Audio Caption のデータセットを用いた実験により,音声物語の人為的なテキストの書き起こしの導入は,より優れた埋め込み表現を得るための訓練手順に役立つことが示された。
論文 参考訳(メタデータ) (2020-06-01T08:18:15Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。