論文の概要: Audio-Infused Automatic Image Colorization by Exploiting Audio Scene
Semantics
- arxiv url: http://arxiv.org/abs/2401.13270v1
- Date: Wed, 24 Jan 2024 07:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:19:34.367182
- Title: Audio-Infused Automatic Image Colorization by Exploiting Audio Scene
Semantics
- Title(参考訳): 音声シーンセマンティクスを利用した音声インフュージョン自動カラー化
- Authors: Pengcheng Zhao, Yanxiang Chen, Yang Zhao, Wei Jia, Zhao Zhang,
Ronggang Wang and Richang Hong
- Abstract要約: 本論文は,同一シーンに関する付加的な意味情報を含む対応する音声を活用しようとするものである。
実験により、音声誘導は自動着色性能を効果的に向上できることが示された。
- 参考スコア(独自算出の注目度): 54.980359694044566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic image colorization is inherently an ill-posed problem with
uncertainty, which requires an accurate semantic understanding of scenes to
estimate reasonable colors for grayscale images. Although recent
interaction-based methods have achieved impressive performance, it is still a
very difficult task to infer realistic and accurate colors for automatic
colorization. To reduce the difficulty of semantic understanding of grayscale
scenes, this paper tries to utilize corresponding audio, which naturally
contains extra semantic information about the same scene. Specifically, a novel
audio-infused automatic image colorization (AIAIC) network is proposed, which
consists of three stages. First, we take color image semantics as a bridge and
pretrain a colorization network guided by color image semantics. Second, the
natural co-occurrence of audio and video is utilized to learn the color
semantic correlations between audio and visual scenes. Third, the implicit
audio semantic representation is fed into the pretrained network to finally
realize the audio-guided colorization. The whole process is trained in a
self-supervised manner without human annotation. In addition, an audiovisual
colorization dataset is established for training and testing. Experiments
demonstrate that audio guidance can effectively improve the performance of
automatic colorization, especially for some scenes that are difficult to
understand only from visual modality.
- Abstract(参考訳): 画像の自動色付けは本質的に不確実性の問題であり、グレースケール画像の適切な色を推定するために、シーンの正確な意味的理解を必要とする。
最近のインタラクションベースの手法は目覚ましい性能を達成したが、自動着色のために現実的で正確な色を推測することは依然として非常に難しい課題である。
グレースケールシーンのセマンティック理解の難しさを軽減するため,本研究では,同一シーンに関する追加のセマンティック情報を含む対応する音声の利用を試みる。
具体的には,3段階からなる新しいaiaic(audio-infused automatic image colorization)ネットワークを提案する。
まず,カラー画像意味論を橋梁として,カラー画像意味論に導かれたカラー化ネットワークを事前学習する。
第2に、音声と映像の自然な共起を利用して、音声と映像のシーン間の色意味関係を学習する。
第3に、暗黙の音声意味表現を事前訓練されたネットワークに入力し、最終的にオーディオ誘導色化を実現する。
プロセス全体は、人間のアノテーションなしで自己管理的な方法で訓練される。
さらに、トレーニングおよびテストのために、オーディオ視覚色化データセットを確立する。
実験により、特に視覚的モダリティからしか理解できない場面では、音声誘導が自動着色性能を効果的に向上できることが示されている。
関連論文リスト
- Diffusing Colors: Image Colorization with Text Guided Diffusion [11.727899027933466]
粒状テキストプロンプトを用いた画像拡散技術を利用した新しい画像カラー化フレームワークを提案する。
本手法は,視覚的品質とセマンティック・コヒーレンスの観点から,既存の技術よりも優れた自動化と制御のバランスを与える。
我々のアプローチは、特に色強調と歴史的イメージのカラー化の可能性を秘めている。
論文 参考訳(メタデータ) (2023-12-07T08:59:20Z) - Speech inpainting: Context-based speech synthesis guided by video [29.233167442719676]
本稿では,音声セグメントにおける音声合成の課題である音声-視覚音声の塗装問題に焦点をあてる。
本稿では,視覚的手がかりを生かし,劣化した音声の内容に関する情報を提供する音声-視覚変換器を用いた深層学習モデルを提案する。
また,音声認識のための大規模音声・視覚変換器であるAV-HuBERTで抽出した視覚的特徴が,音声合成にどのように適しているかを示す。
論文 参考訳(メタデータ) (2023-06-01T09:40:47Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - TIC: Text-Guided Image Colorization [24.317541784957285]
本稿では、2つの入力(グレースケール画像と各エンコードされたテキスト記述)を取り込み、関連する色域を予測しようとする新しいディープネットワークを提案する。
各テキスト記述にはシーンに存在するオブジェクトの色情報が含まれているので、テキストエンコーディングは予測された色の全体的な品質を改善するのに役立つ。
提案手法を異なる指標を用いて評価した結果,定性的にも定量的にも,最先端のカラー化アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-08-04T18:40:20Z) - Semantic-Sparse Colorization Network for Deep Exemplar-based
Colorization [23.301799487207035]
模範的なカラー化アプローチは、対象のグレースケール画像に対して可視色を提供するために、参照画像に依存する。
本研究では,グローバルな画像スタイルとセマンティックな色の両方をグレースケールに転送するセマンティック・スパースカラー化ネットワーク(SSCN)を提案する。
我々のネットワークは、あいまいなマッチング問題を緩和しつつ、グローバルカラーとローカルカラーのバランスを完全にとることができる。
論文 参考訳(メタデータ) (2021-12-02T15:35:10Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Semantic-driven Colorization [78.88814849391352]
最近の着色は、白黒画像の着色を学習しながら意味情報を暗黙的に予測する。
そこで本研究では,まず,人間の動作をシミュレートして,画像の理解を学習し,色づけする。
論文 参考訳(メタデータ) (2020-06-13T08:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。