論文の概要: From Language To Vision: A Case Study of Text Animation
- arxiv url: http://arxiv.org/abs/2501.02549v1
- Date: Sun, 05 Jan 2025 14:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:38.882557
- Title: From Language To Vision: A Case Study of Text Animation
- Title(参考訳): 言語から視覚へ:テキストアニメーションの事例研究
- Authors: Ping Chen, Richard Alo, Justin Rundell,
- Abstract要約: 本稿では,フリーテキストをアニメーションで可視化するテキスト可視化システムを提案する。
本システムは, 基本物理法則の例文を可視化することによって記述する。
- 参考スコア(独自算出の注目度): 1.2730705848836437
- License:
- Abstract: Information can be expressed in multiple formats including natural language, images, and motions. Human intelligence usually faces little difficulty to convert from one format to another format, which often shows a true understanding of encoded information. Moreover, such conversions have broad application in many real-world applications. In this paper, we present a text visualization system that can visualize free text with animations. Our system is illustrated by visualizing example sentences of elementary Physics laws.
- Abstract(参考訳): 情報は自然言語、画像、動きを含む複数のフォーマットで表現できる。
ヒューマンインテリジェンスは通常、あるフォーマットから別のフォーマットに変換するのがほとんど難しく、しばしばエンコードされた情報の真の理解を示す。
さらに、そのような変換は多くの現実世界の応用に広く応用されている。
本稿では,フリーテキストをアニメーションで可視化するテキスト可視化システムを提案する。
本システムは, 基本物理法則の例文を可視化することによって記述する。
関連論文リスト
- Towards Zero-Shot & Explainable Video Description by Reasoning over Graphs of Events in Space and Time [9.750622039291507]
トランスフォーマーはコンピュータビジョンや自然言語処理など、さまざまな領域で事実上のアプローチとなっている。
本稿では,空間的・時間的事象に基づく視覚と言語間の共通基盤を,説明可能かつプログラム的に提案する。
我々のアルゴリズムアプローチは、さまざまなデータセットから収集したビデオに対して、一貫性があり、リッチで、関連するテキスト記述を生成することができることを検証します。
論文 参考訳(メタデータ) (2025-01-14T22:09:06Z) - Detection-Fusion for Knowledge Graph Extraction from Videos [49.1574468325115]
本稿では,知識グラフを用いた動画アノテート手法を提案する。
具体的には,この課題に対するディープラーニングモデルを提案する。
また,知識グラフ構築に背景知識を組み込むためのモデルの拡張も提案する。
論文 参考訳(メタデータ) (2024-12-30T20:26:11Z) - LLaVA-Read: Enhancing Reading Ability of Multimodal Language Models [60.67899965748755]
両ビジュアルエンコーダとビジュアルテキストエンコーダを併用したマルチモーダル大規模言語モデルであるLLaVA-Readを提案する。
我々の研究は、ビジュアルテキスト理解は依然としてオープンな課題であり、将来のマルチモーダルシステムにとって効率的なビジュアルテキストエンコーダが不可欠であることを示唆している。
論文 参考訳(メタデータ) (2024-07-27T05:53:37Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Going Full-TILT Boogie on Document Understanding with Text-Image-Layout
Transformer [0.6702423358056857]
本稿では,レイアウト情報,視覚特徴,テキスト意味論を同時に学習するtiltニューラルネットワークアーキテクチャを紹介する。
私たちは、テーブル、数字、フォームなど、さまざまなレイアウトの実際の文書のネットワークを訓練しました。
論文 参考訳(メタデータ) (2021-02-18T18:51:47Z) - Adaptive Text Recognition through Visual Matching [86.40870804449737]
言語における文字の反復性を利用した新しいモデルを提案する。
これにより、テキスト認識を形状整合問題に変換する。
従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
論文 参考訳(メタデータ) (2020-09-14T17:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。