論文の概要: Multi-Lingual DALL-E Storytime
- arxiv url: http://arxiv.org/abs/2212.11985v1
- Date: Thu, 22 Dec 2022 07:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:36:09.581225
- Title: Multi-Lingual DALL-E Storytime
- Title(参考訳): 多言語DALL-Eストーリータイム
- Authors: Noga Mudrik and Adam S. Charles
- Abstract要約: 非英語の歌や物語の高速な可視化を実現するために,DALL-Eストーリーテリングフレームワークを提案する。
我々のフレームワークは、非英語テキストからのストーリーを効果的に可視化し、プロットの変化を時間とともに表現することができる。
- 参考スコア(独自算出の注目度): 5.413638330498511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advancements in artificial intelligence (AI) language models
demonstrate cutting-edge performance when working with English texts,
equivalent models do not exist in other languages or do not reach the same
performance level. This undesired effect of AI advancements increases the gap
between access to new technology from different populations across the world.
This unsought bias mainly discriminates against individuals whose English
skills are less developed, e.g., non-English speakers children. Following
significant advancements in AI research in recent years, OpenAI has recently
presented DALL-E: a powerful tool for creating images based on English text
prompts. While DALL-E is a promising tool for many applications, its decreased
performance when given input in a different language, limits its audience and
deepens the gap between populations. An additional limitation of the current
DALL-E model is that it only allows for the creation of a few images in
response to a given input prompt, rather than a series of consecutive coherent
frames that tell a story or describe a process that changes over time. Here, we
present an easy-to-use automatic DALL-E storytelling framework that leverages
the existing DALL-E model to enable fast and coherent visualizations of
non-English songs and stories, pushing the limit of the one-step-at-a-time
option DALL-E currently offers. We show that our framework is able to
effectively visualize stories from non-English texts and portray the changes in
the plot over time. It is also able to create a narrative and maintain
interpretable changes in the description across frames. Additionally, our
framework offers users the ability to specify constraints on the story
elements, such as a specific location or context, and to maintain a consistent
style throughout the visualization.
- Abstract(参考訳): 人工知能(AI)言語モデルの最近の進歩は、英語のテキストを扱う際の最先端のパフォーマンスを示しているが、同等のモデルは他の言語には存在しない。
このAIの進歩による望ましくない効果は、世界中の異なる人々から新しい技術にアクセスするためのギャップを増す。
この偏見は、英語のスキルが発達していない個人、例えば非英語話者の子供に対して主に差別している。
近年のAI研究の大きな進歩に続いて、OpenAIは、英語のテキストプロンプトに基づいて画像を作成する強力なツールであるDALL-Eを発表した。
dall-eは多くのアプリケーションにとって有望なツールだが、異なる言語で入力されるとパフォーマンスが低下し、オーディエンスが制限され、人口間のギャップが深まる。
現在のDALL-Eモデルのさらなる制限は、ストーリーを伝え、時間とともに変化するプロセスを記述する一連の連続したコヒーレントフレームではなく、与えられた入力プロンプトに応答して、少数の画像を作成することができることである。
本稿では,既存のDALL-Eモデルを利用して,非英語の楽曲や物語の高速かつコヒーレントな可視化を実現し,現在提供されているワンステップ・アズ・ア・タイムオプションの限界を押し上げる,使い易いDALL-Eストーリーテリングフレームワークを提案する。
本フレームワークは,非英語テキストのストーリーを効果的に可視化し,時間とともにプロットの変化を表現できることを示す。
また、物語の作成や、フレーム間の記述の解釈可能な変更の維持も可能である。
さらに、我々のフレームワークは、特定の場所やコンテキストなどのストーリー要素の制約を指定でき、可視化全体を通して一貫したスタイルを維持することができます。
関連論文リスト
- VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models [0.0]
VALE Visual and Language Explanation という新しいフレームワークを提案する。
VALEは説明可能なAI技術と高度な言語モデルを統合し、包括的な説明を提供する。
本稿では,画像分類タスクのためのVALEフレームワークの試験的検討を行う。
論文 参考訳(メタデータ) (2024-08-23T03:02:11Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - Caption Anything: Interactive Image Description with Diverse Multimodal
Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。
本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。
Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文 参考訳(メタデータ) (2023-05-04T09:48:22Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。