論文の概要: Hierarchical Modeling of Multidimensional Data in Regularly Decomposed
Spaces: Synthesis and Perspective
- arxiv url: http://arxiv.org/abs/2001.04322v1
- Date: Mon, 13 Jan 2020 14:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:25:05.282232
- Title: Hierarchical Modeling of Multidimensional Data in Regularly Decomposed
Spaces: Synthesis and Perspective
- Title(参考訳): 正規分解空間における多次元データの階層的モデリング:合成と展望
- Authors: Olivier Guye
- Abstract要約: このプロジェクトの目的は,自己記述型ビデオ符号化の原理を定義することである。
マルチレゾリューション・コンピューティングの手法を基礎として,部分的正則成分からなる画像セグメンテーションを開発することを提案する。
単純な形は視覚的アルファベットと比較され、複雑な形は、このアルファベットを使って書かれた単語となり、辞書に記録されるように思われる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This fourth and last tome is focusing on describing the envisioned works for
a project that has been presented in the preceding tome. It is about a new
approach dedicated to the coding of still and moving pictures, trying to bridge
the MPEG-4 and MPEG-7 standard bodies. The aim of this project is to define the
principles of self-descriptive video coding. In order to establish them, the
document is composed in five chapters that describe the various envisioned
techniques for developing such a new approach in visual coding: - image
segmentation, - computation of visual descriptors, - computation of perceptual
groupings, - building of visual dictionaries, - picture and video coding. Based
on the techniques of multiresolution computing, it is proposed to develop an
image segmentation made from piecewise regular components, to compute
attributes on the frame and the rendering of so produced shapes, independently
to the geometric transforms that can occur in the image plane, and to gather
them into perceptual groupings so as to be able in performing recognition of
partially hidden patterns. Due to vector quantization of shapes frame and
rendering, it will appear that simple shapes may be compared to a visual
alphabet and that complex shapes then become words written using this alphabet
and be recorded into a dictionary. With the help of a nearest neighbour
scanning applied on the picture shapes, the self-descriptive coding will then
generate a sentence made from words written using the simple shape alphabet.
- Abstract(参考訳): この4番目と最後のトームは、前回のトームで提示されたプロジェクトのための構想された作品の記述に焦点を当てている。
MPEG-4とMPEG-7の標準ボディを橋渡ししようとする、静止画と移動画のコーディングに特化した新しいアプローチに関するものだ。
このプロジェクトの目的は、自己記述型ビデオコーディングの原則を定義することである。
画像分割,視覚記述子の計算,知覚的グルーピングの計算,視覚辞書の構築,画像と映像の符号化という,視覚的コーディングの新たなアプローチを開発するための様々な構想されたテクニックを記述した5つの章で構成されている。
マルチレゾリューション・コンピューティングの手法に基づき,フレーム上の属性を計算し,画像平面内で発生する幾何学的変換とは独立して,部分的隠蔽パターンの認識を可能にするために,部分的正規成分からなる画像分割を開発することを提案する。
形状のベクトル量子化とレンダリングにより、単純な形状を視覚的アルファベットと比較し、複雑な形状をこのアルファベットを使って書かれた単語にし、辞書に記録するように見える。
図形に最も近い近傍スキャンを施すことで、自己記述的符号化は、単純な字形アルファベットを使って書かれた単語から作られた文を生成する。
関連論文リスト
- Disentangling Visual Priors: Unsupervised Learning of Scene Interpretations with Compositional Autoencoder [0.20718016474717196]
本稿では、ドメイン固有言語を用いて、画像形成の先駆的選択を捉えるニューロシンボリックアーキテクチャを提案する。
我々は、その言語でテンプレートプログラムを表現し、畳み込みニューラルネットワークによってシーンから抽出された特徴を用いてパラメータ化を学ぶ。
パラメータ化されたプログラムは、実行されると幾何学的プリミティブを生成し、シーンの内容に対応するようにレンダリングして評価する。
論文 参考訳(メタデータ) (2024-09-15T12:47:39Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - CoGS: Controllable Generation and Search from Sketch and Style [35.625940819995996]
画像のスタイル条件付きスケッチ駆動合成法であるCoGSを提案する。
CoGSは、与えられたスケッチされたオブジェクトの様々な外観可能性の探索を可能にする。
新たに作成したPseudosketchesデータセットの125のオブジェクトクラスをトレーニングしたモデルでは,セマンティックコンテンツや外観スタイルの多様さが実現可能であることを示す。
論文 参考訳(メタデータ) (2022-03-17T18:36:11Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Label-Attention Transformer with Geometrically Coherent Objects for
Image Captioning [4.366088315820477]
幾何学的コヒーレントオブジェクト(LATGeO)を用いたラベルアテンション変換器を提案する。
提案手法は,ディープニューラルネットワーク(DNN)を用いた幾何学的コヒーレントな物体の提案を取得し,それらの関係性を調査してキャプションを生成する。
実験により、オブジェクトの周囲における関連性や視覚的特徴と幾何学的に局所化された比率との結合が、関連するラベルと組み合わせることで、意味のあるキャプションを定義するのに役立つことが示された。
論文 参考訳(メタデータ) (2021-09-16T08:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。