論文の概要: Hierarchical Modeling of Multidimensional Data in Regularly Decomposed
Spaces: Synthesis and Perspective
- arxiv url: http://arxiv.org/abs/2001.04322v1
- Date: Mon, 13 Jan 2020 14:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:25:05.282232
- Title: Hierarchical Modeling of Multidimensional Data in Regularly Decomposed
Spaces: Synthesis and Perspective
- Title(参考訳): 正規分解空間における多次元データの階層的モデリング:合成と展望
- Authors: Olivier Guye
- Abstract要約: このプロジェクトの目的は,自己記述型ビデオ符号化の原理を定義することである。
マルチレゾリューション・コンピューティングの手法を基礎として,部分的正則成分からなる画像セグメンテーションを開発することを提案する。
単純な形は視覚的アルファベットと比較され、複雑な形は、このアルファベットを使って書かれた単語となり、辞書に記録されるように思われる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This fourth and last tome is focusing on describing the envisioned works for
a project that has been presented in the preceding tome. It is about a new
approach dedicated to the coding of still and moving pictures, trying to bridge
the MPEG-4 and MPEG-7 standard bodies. The aim of this project is to define the
principles of self-descriptive video coding. In order to establish them, the
document is composed in five chapters that describe the various envisioned
techniques for developing such a new approach in visual coding: - image
segmentation, - computation of visual descriptors, - computation of perceptual
groupings, - building of visual dictionaries, - picture and video coding. Based
on the techniques of multiresolution computing, it is proposed to develop an
image segmentation made from piecewise regular components, to compute
attributes on the frame and the rendering of so produced shapes, independently
to the geometric transforms that can occur in the image plane, and to gather
them into perceptual groupings so as to be able in performing recognition of
partially hidden patterns. Due to vector quantization of shapes frame and
rendering, it will appear that simple shapes may be compared to a visual
alphabet and that complex shapes then become words written using this alphabet
and be recorded into a dictionary. With the help of a nearest neighbour
scanning applied on the picture shapes, the self-descriptive coding will then
generate a sentence made from words written using the simple shape alphabet.
- Abstract(参考訳): この4番目と最後のトームは、前回のトームで提示されたプロジェクトのための構想された作品の記述に焦点を当てている。
MPEG-4とMPEG-7の標準ボディを橋渡ししようとする、静止画と移動画のコーディングに特化した新しいアプローチに関するものだ。
このプロジェクトの目的は、自己記述型ビデオコーディングの原則を定義することである。
画像分割,視覚記述子の計算,知覚的グルーピングの計算,視覚辞書の構築,画像と映像の符号化という,視覚的コーディングの新たなアプローチを開発するための様々な構想されたテクニックを記述した5つの章で構成されている。
マルチレゾリューション・コンピューティングの手法に基づき,フレーム上の属性を計算し,画像平面内で発生する幾何学的変換とは独立して,部分的隠蔽パターンの認識を可能にするために,部分的正規成分からなる画像分割を開発することを提案する。
形状のベクトル量子化とレンダリングにより、単純な形状を視覚的アルファベットと比較し、複雑な形状をこのアルファベットを使って書かれた単語にし、辞書に記録するように見える。
図形に最も近い近傍スキャンを施すことで、自己記述的符号化は、単純な字形アルファベットを使って書かれた単語から作られた文を生成する。
関連論文リスト
- Subobject-level Image Tokenization [65.23922446850783]
トランスフォーマーベースの視覚モデルは通常、イメージを入力単位として固定サイズの正方形パッチにトークン化する。
言語モデルに広く採用されているサブワードトークン化に着想を得て,サブオブジェクトレベルでの画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - CoGS: Controllable Generation and Search from Sketch and Style [35.625940819995996]
画像のスタイル条件付きスケッチ駆動合成法であるCoGSを提案する。
CoGSは、与えられたスケッチされたオブジェクトの様々な外観可能性の探索を可能にする。
新たに作成したPseudosketchesデータセットの125のオブジェクトクラスをトレーニングしたモデルでは,セマンティックコンテンツや外観スタイルの多様さが実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-17T18:36:11Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Label-Attention Transformer with Geometrically Coherent Objects for
Image Captioning [4.366088315820477]
幾何学的コヒーレントオブジェクト(LATGeO)を用いたラベルアテンション変換器を提案する。
提案手法は,ディープニューラルネットワーク(DNN)を用いた幾何学的コヒーレントな物体の提案を取得し,それらの関係性を調査してキャプションを生成する。
実験により、オブジェクトの周囲における関連性や視覚的特徴と幾何学的に局所化された比率との結合が、関連するラベルと組み合わせることで、意味のあるキャプションを定義するのに役立つことが示された。
論文 参考訳(メタデータ) (2021-09-16T08:43:46Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Synthesizing human-like sketches from natural images using a conditional
convolutional decoder [3.3504365823045035]
本研究では,自然画像中の物体の人間的なスケッチを合成できる,完全な畳み込み型エンドツーエンドアーキテクチャを提案する。
スケッチとイメージのペアのコレクション上で、エンドツーエンドの教師付きで構造をトレーニングします。
生成したアーキテクチャのスケッチを85.6%の精度で分類し,ユーザスタディを通じてその視覚的品質を検証する。
論文 参考訳(メタデータ) (2020-03-16T10:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。