論文の概要: Animating the Past: Reconstruct Trilobite via Video Generation
- arxiv url: http://arxiv.org/abs/2410.14715v1
- Date: Thu, 10 Oct 2024 02:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:37.642473
- Title: Animating the Past: Reconstruct Trilobite via Video Generation
- Title(参考訳): 過去をアニメーションする:ビデオ生成による再構成三脚
- Authors: Xiaoran Wu, Zien Huang, Chonghan Yu,
- Abstract要約: トリロビットは保存状態のよい化石記録を通じて古生代の環境に関する貴重な洞察を提供する。
テキスト・トゥ・ビデオ(T2V)のような現在の計算手法では、視覚リアリズムや一貫性の維持といった課題に直面している。
本稿では,これらの障害を克服する自動T2Vプロンプト学習手法を提案する。
提案手法は,強力なベースラインに比べて視覚的リアリズムが著しく高いトリロビットビデオを生成することができることを示す。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paleontology, the study of past life, fundamentally relies on fossils to reconstruct ancient ecosystems and understand evolutionary dynamics. Trilobites, as an important group of extinct marine arthropods, offer valuable insights into Paleozoic environments through their well-preserved fossil records. Reconstructing trilobite behaviour from static fossils will set new standards for dynamic reconstructions in scientific research and education. Despite the potential, current computational methods for this purpose like text-to-video (T2V) face significant challenges, such as maintaining visual realism and consistency, which hinder their application in science contexts. To overcome these obstacles, we introduce an automatic T2V prompt learning method. Within this framework, prompts for a fine-tuned video generation model are generated by a large language model, which is trained using rewards that quantify the visual realism and smoothness of the generated video. The fine-tuning of the video generation model, along with the reward calculations make use of a collected dataset of 9,088 Eoredlichia intermedia fossil images, which provides a common representative of visual details of all class of trilobites. Qualitative and quantitative experiments show that our method can generate trilobite videos with significantly higher visual realism compared to powerful baselines, promising to boost both scientific understanding and public engagement.
- Abstract(参考訳): 過去の生命の研究である古生物学は、化石に頼って古代の生態系を再構築し、進化のダイナミクスを理解する。
絶滅した海洋性節足動物の重要なグループであるトリロビットは、保存状態のよい化石記録を通じて古生代の環境に関する貴重な洞察を提供する。
静的な化石からトリロビットの挙動を再構築することで、科学研究と教育における動的再構築の新たな標準が確立される。
その可能性にもかかわらず、テキスト・トゥ・ビデオ(T2V)のような現在の計算手法は、視覚的リアリズムや一貫性の維持といった重要な課題に直面しており、科学的な文脈におけるそれらの応用を妨げる。
これらの障害を克服するために,自動T2Vプロンプト学習手法を提案する。
このフレームワーク内では,映像の視覚的リアリズムと滑らかさを定量化する報酬を用いて,大規模な言語モデルによって微調整ビデオ生成モデルのプロンプトが生成される。
映像生成モデルの微調整と報酬計算は、収集された9,088個のEoredlichia中間化石画像を用いており、これは全ての種類のトリロビットの視覚的詳細を共通に表現している。
定性的かつ定量的な実験により、我々の手法は強力なベースラインよりもはるかに高い視覚的リアリズムを持つトリロビットビデオを生成することができ、科学的な理解と公的なエンゲージメントの両方を高めることが期待できる。
関連論文リスト
- Towards geological inference with process-based and deep generative modeling, part 1: training on fluvial deposits [0.0]
本研究では, プロセスベースモデルによりシミュレーションされたフラビラル沈着を再現するために, GAN(Generative Adversarial Network)をトレーニングできるかどうかを検討する。
深層学習コミュニティから大規模な2次元画像を生成する開発は, 直接, フラビアル堆積物の3次元画像に転送可能である。
重ね合わせの法則に敬意を表して, 重ね合わせ時間を用いてGANの性能をモニタリングし, 検証する方法について述べる。
論文 参考訳(メタデータ) (2025-10-16T08:43:40Z) - Advances and Trends in the 3D Reconstruction of the Shape and Motion of Animals [11.906309087751609]
動物の3D形状、ポーズ、動きを再構築することは、長年の課題である。
深層学習に基づく技術は、動的物体の形状と動きを非侵襲的に3D再構成することができる。
本稿は、この新興・成長研究分野の最新動向について調査する。
論文 参考訳(メタデータ) (2025-08-22T03:30:12Z) - S^2VG: 3D Stereoscopic and Spatial Video Generation via Denoising Frame Matrix [60.060882467801484]
そこで本研究では,既製の単眼ビデオ生成モデルを利用して,没入型3Dビデオを生成する,ポーズフリーかつトレーニングフリーな手法を提案する。
提案手法はまず,生成したモノクロ映像を推定深度情報を用いて予め定義されたカメラ視点にワープし,新しいテキストフレーム・マトリクス・インペイント・フレームワークを適用した。
提案手法の有効性は,Sora, Lumiere, WALT, Zeroscope など,様々な生成モデルを用いた実験により検証した。
論文 参考訳(メタデータ) (2025-08-11T14:50:03Z) - HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly [15.347208661111198]
HumanSAMは、人間中心のフォージェリーを、生成されたコンテンツでよく見られる3つの異なる種類のアーティファクトに分類することを目的としている。
HumanSAMは、バイナリとマルチクラスの偽造分類の両方において、最先端の手法と比較して有望な結果をもたらす。
論文 参考訳(メタデータ) (2025-07-26T12:03:47Z) - Reconstructing Animals and the Wild [51.98009864071166]
本研究では,単一画像から自然シーンを再構成する手法を提案する。
当社のアプローチは、大規模言語モデルにおける強力な世界の先駆的活用の進歩に基づくものです。
本稿では,100万枚の画像と数千枚の資産からなる合成データセットを提案する。
論文 参考訳(メタデータ) (2024-11-27T23:24:27Z) - Do As I Do: Pose Guided Human Motion Copy [39.40271266234068]
モーションコピーは、人工知能とコンピュータビジョンにおいて興味深いが難しい課題だ。
既存のアプローチでは、通常、ターゲットのフェイクビデオを生成するために、L1またはL2損失の従来のGANを採用する。
連続学習を促進するために,ポーズ・ツー・アジュアンス生成におけるエピソード記憶モジュールを提案する。
提案手法は,PSNRとFIDをそれぞれ7.2%,12.4%改善した。
論文 参考訳(メタデータ) (2024-06-24T12:41:51Z) - MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators [56.01348424615965]
我々は,リアルタイムな物理知識をタイムラプスビデオから学習し,メタモルフィック生成を実装する,タイムラプスビデオ生成モデルであるtextbfMagicTimeを提案する。
実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を示す。
論文 参考訳(メタデータ) (2024-04-07T16:49:07Z) - Sora Generates Videos with Stunning Geometrical Consistency [75.46675626542837]
そこで本研究では,実世界の物理原理に則って生成した映像の質を評価する新しいベンチマークを提案する。
生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。
論文 参考訳(メタデータ) (2024-02-27T10:49:05Z) - Virtual Pets: Animatable Animal Generation in 3D Scenes [84.0990909455833]
仮想ペット(Virtual Pet)は、3次元環境下での標的動物種に対する現実的で多様な動きをモデル化するための新しいパイプラインである。
我々はモノクロインターネットビデオを活用し、背景と背景の静的なNeRF表現に対して変形可能なNeRF表現を抽出する。
我々は,種レベルの共有テンプレート学習とビデオ毎の微調整を含む再構築戦略を開発する。
論文 参考訳(メタデータ) (2023-12-21T18:59:30Z) - DreaMo: Articulated 3D Reconstruction From A Single Casual Video [59.87221439498147]
対象者の視界が不完全である単一かつカジュアルに捉えたインターネットビデオから3次元形状の連続的再構成について検討した。
DreaMoは、ノベルビューレンダリング、詳細な形状復元、骨格生成において有望な品質を示している。
論文 参考訳(メタデータ) (2023-12-05T09:47:37Z) - Fossil Image Identification using Deep Learning Ensembles of Data
Augmented Multiviews [8.877286028859602]
本稿では,化石画像のオリジン(O),グレイ(G),骨格(S)ビューを収集する多視点アンサンブルフレームワークを提案する。
2400枚の画像を持つ最大のフスリノイドデータセットの実験は、提案されたOGSがベースラインを一貫して上回っていることを示している。
OGSは、データセットのオリジナルのラベルと、2人の人間の専門家の再識別との合意が最も高い。
論文 参考訳(メタデータ) (2023-02-16T03:57:21Z) - LASR: Learning Articulated Shape Reconstruction from a Monocular Video [97.92849567637819]
1つのビデオから3d形状を学習するためのテンプレートフリー手法を提案する。
本手法は,人間,動物,未知のクラスの映像から,非剛体3D構造を忠実に再構築する。
論文 参考訳(メタデータ) (2021-05-06T21:41:11Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。