論文の概要: Automatic Geo-alignment of Artwork in Children's Story Books
- arxiv url: http://arxiv.org/abs/2304.01204v1
- Date: Thu, 16 Mar 2023 06:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-09 05:45:22.255357
- Title: Automatic Geo-alignment of Artwork in Children's Story Books
- Title(参考訳): 児童ストーリーブックにおけるアートワークの自動配置
- Authors: Jakub J. Dylag, Victor Suarez, James Wald, Aneesha Amodini Uvara
- Abstract要約: このプロジェクトは、機械学習アルゴリズムの一般化とスケーラビリティを活用することで、同社のビジョンと一致している。
提案手法は,デジタルウェブブックにおける新しいイラストレーションのためのビデオおよび3D彫刻生成にも適用可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A study was conducted to prove AI software could be used to translate and
generate illustrations without any human intervention. This was done with the
purpose of showing and distributing it to the external customer, Pratham Books.
The project aligns with the company's vision by leveraging the generalisation
and scalability of Machine Learning algorithms, offering significant cost
efficiency increases to a wide range of literary audiences in varied
geographical locations. A comparative study methodology was utilised to
determine the best performant method out of the 3 devised, Prompt Augmentation
using Keywords, CLIP Embedding Mask, and Cross Attention Control with Editorial
Prompts. A thorough evaluation process was completed using both quantitative
and qualitative measures. Each method had its own strengths and weaknesses, but
through the evaluation, method 1 was found to have the best yielding results.
Promising future advancements may be made to further increase image quality by
incorporating Large Language Models and personalised stylistic models. The
presented approach can also be adapted to Video and 3D sculpture generation for
novel illustrations in digital webbooks.
- Abstract(参考訳): AIソフトウェアが人間の介入なしにイラストの翻訳と生成に使えることを証明するための研究が実施された。
これは、外部の顧客であるPratham Booksに見せ、配布することを目的として行われた。
このプロジェクトは、機械学習アルゴリズムの一般化とスケーラビリティを活用することで同社のビジョンと整合し、様々な地理的な場所で幅広い文学読者に大幅なコスト効率の向上を提供する。
比較研究手法を用いて, キーワード, クリップ埋め込みマスク, クロスアテンション制御, 編集プロンプトを用いて, 提案する3つの手法のうち, 最良性能評価手法について検討した。
定量と定性の両方を用いて徹底的な評価プロセスが完了した。
それぞれの手法には強みと弱みがあったが, 評価の結果, 1法が最も収率のよい結果が得られた。
今後,大規模言語モデルとパーソナライズされたスタイリスティックモデルを組み込むことで,画像の質の向上が期待できる。
提案手法は,デジタルウェブブックにおける新しいイラストレーションのためのビデオおよび3D彫刻生成にも適用可能である。
関連論文リスト
- LEGO: Self-Supervised Representation Learning for Scene Text Images [32.21085469233465]
本研究では,シーンテキスト画像に対する局所的・グローバル的順序対応型自己教師型表現学習手法を提案する。
単語を学習する人間の認知プロセスにインスパイアされて、LEGOのシーケンシャル、セマンティック、構造的特徴をモデル化するための3つの新しいプレテキストタスクを提案する。
LEGO認識器は、6つのベンチマーク上での最先端のシーンテキスト認識方法よりも優れた、あるいは同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-04T14:07:14Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing
Objects in 3D Scenes [80.20670062509723]
3Dシークエンスキャプションは、3Dシーンの詳細な説明を作成することを目的とした、視覚言語によるブリッジングタスクである。
2次元の視覚的キャプションと比較して、現実世界の表現が密接なため、大きな可能性と課題が提示される。
既存手法の人気と成功にもかかわらず、この分野の進歩を要約した総合的な調査は乏しい。
論文 参考訳(メタデータ) (2024-03-12T10:04:08Z) - Masked Modeling for Self-supervised Representation Learning on Vision
and Beyond [69.64364187449773]
仮面モデリングは、トレーニング中に比例的にマスキングされる元のデータの一部を予測する、独特なアプローチとして現れてきた。
マスクモデリングにおけるテクニックの詳細については,多様なマスキング戦略,ターゲット回復,ネットワークアーキテクチャなどについて詳述する。
我々は、現在の手法の限界について議論し、マスクモデリング研究を進めるためのいくつかの道のりを指摘した。
論文 参考訳(メタデータ) (2023-12-31T12:03:21Z) - Distilling Large Vision-Language Model with Out-of-Distribution
Generalizability [43.984177729641615]
本稿では,大規模教師の視覚言語モデルから軽量学生モデルへの視覚表現の蒸留について検討する。
本稿では,いくつかの指標を提案し,その手法を検証するための広範囲な実験を行う。
その結果,オープン・ボキャブラリ・アウト・オブ・ディストリビューションの分類において,ゼロショットと少数ショットの学生のパフォーマンスが著しく向上した。
論文 参考訳(メタデータ) (2023-07-06T17:05:26Z) - Domain Generalization for Mammographic Image Analysis with Contrastive
Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。
より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。
提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文 参考訳(メタデータ) (2023-04-20T11:40:21Z) - Self-Supervised Image Representation Learning: Transcending Masking with
Paired Image Overlay [10.715255809531268]
本稿では,自己教師型学習には適用されていない画像のオーバーレイ化という,新たな画像強調手法を提案する。
提案手法は,ダウンストリームタスクにおいて確固とした性能を示す自己教師付き学習手法であるコントラスト学習を用いて評価する。
論文 参考訳(メタデータ) (2023-01-23T07:00:04Z) - Automatic Image Content Extraction: Operationalizing Machine Learning in
Humanistic Photographic Studies of Large Visual Archives [81.88384269259706]
本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出フレームワークを提案する。
提案する枠組みは、人文科学と社会科学のいくつかの分野に適用できる。
論文 参考訳(メタデータ) (2022-04-05T12:19:24Z) - Survey on Automated Short Answer Grading with Deep Learning: from Word
Embeddings to Transformers [5.968260239320591]
教育課題を学生数の増加に拡大する手段として,ASAG (Automated Short answer grading) が教育において注目を集めている。
自然言語処理と機械学習の最近の進歩はASAGの分野に大きな影響を与えた。
論文 参考訳(メタデータ) (2022-03-11T13:47:08Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。