論文の概要: Reconstructing and grounding narrated instructional videos in 3D
- arxiv url: http://arxiv.org/abs/2109.04409v2
- Date: Fri, 10 Sep 2021 10:28:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:49:22.671801
- Title: Reconstructing and grounding narrated instructional videos in 3D
- Title(参考訳): ナレーション映像の3次元再構成とグラウンド化
- Authors: Dimitri Zhukov, Ignacio Rocco, Ivan Laptev, Josef Sivic, Johannes L.
Sch\"onberger, Bugra Tekin, Marc Pollefeys
- Abstract要約: このようなオブジェクトを再構築し、関連するナレーションを3Dでローカライズすることを目的としている。
本稿では,学習した局所的特徴と高密度流れを組み合わせた対応推定手法を提案する。
自動車メンテナンス分野におけるアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 99.22297066405741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Narrated instructional videos often show and describe manipulations of
similar objects, e.g., repairing a particular model of a car or laptop. In this
work we aim to reconstruct such objects and to localize associated narrations
in 3D. Contrary to the standard scenario of instance-level 3D reconstruction,
where identical objects or scenes are present in all views, objects in
different instructional videos may have large appearance variations given
varying conditions and versions of the same product. Narrations may also have
large variation in natural language expressions. We address these challenges by
three contributions. First, we propose an approach for correspondence
estimation combining learnt local features and dense flow. Second, we design a
two-step divide and conquer reconstruction approach where the initial 3D
reconstructions of individual videos are combined into a 3D alignment graph.
Finally, we propose an unsupervised approach to ground natural language in
obtained 3D reconstructions. We demonstrate the effectiveness of our approach
for the domain of car maintenance. Given raw instructional videos and no manual
supervision, our method successfully reconstructs engines of different car
models and associates textual descriptions with corresponding objects in 3D.
- Abstract(参考訳): ナレーション付き指導ビデオは、車やラップトップの特定のモデルを修理するなど、類似したオブジェクトの操作をしばしば表示し記述する。
本研究では,そのようなオブジェクトを再構築し,関連するナレーションを3Dでローカライズすることを目的とする。
すべてのビューに同一のオブジェクトやシーンが存在するインスタンスレベルの3D再構成の標準的なシナリオとは対照的に、異なるインストラクショナルビデオ内のオブジェクトは、同じ製品のさまざまな条件とバージョンに応じて大きな外観変化を持つ可能性がある。
ナレーションは自然言語の表現にも大きなバリエーションがある。
我々はこれらの課題を3つの貢献で解決する。
まず,学習した局所的特徴と高密度流れを組み合わせた対応推定手法を提案する。
第2に、個々のビデオの初期3次元再構成を3次元アライメントグラフに組み合わせた2段階分割・復号化手法を設計する。
最後に,得られた3次元再構成における基盤自然言語に対する教師なしアプローチを提案する。
自動車メンテナンス分野におけるアプローチの有効性を実証する。
本手法は, 生の指導ビデオと手動による監督を伴わず, 異なる車両モデルのエンジンを再構築し, テキスト記述を3次元のオブジェクトに関連付ける。
関連論文リスト
- Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - Farm3D: Learning Articulated 3D Animals by Distilling 2D Diffusion [67.71624118802411]
本稿では,カテゴリー固有の3D再構成器の学習方法であるFarm3Dについて述べる。
本稿では,Stable Diffusion などの画像生成装置を用いて,合成学習データを生成するフレームワークを提案する。
我々のネットワークは、単分子再構成や合成などの分析に利用でき、ビデオゲームのようなリアルタイムアプリケーションのための音響資産を生成することができる。
論文 参考訳(メタデータ) (2023-04-20T17:59:34Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - Style Agnostic 3D Reconstruction via Adversarial Style Transfer [23.304453155586312]
物体の3次元形状を画像から再構成することは、コンピュータビジョンにおける大きな課題である。
本研究では,背景を持つ画像から3次元物体を識別可能な学習法を提案する。
論文 参考訳(メタデータ) (2021-10-20T21:24:44Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。