Fugu-MT 論文翻訳(概要): Animating the Past: Reconstruct Trilobite via Video Generation

論文の概要: Animating the Past: Reconstruct Trilobite via Video Generation

arxiv url: http://arxiv.org/abs/2410.14715v1
Date: Thu, 10 Oct 2024 02:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.642473
Title: Animating the Past: Reconstruct Trilobite via Video Generation
Title（参考訳）: 過去をアニメーションする:ビデオ生成による再構成三脚
Authors: Xiaoran Wu, Zien Huang, Chonghan Yu,
Abstract要約: トリロビットは保存状態のよい化石記録を通じて古生代の環境に関する貴重な洞察を提供する。テキスト・トゥ・ビデオ(T2V)のような現在の計算手法では、視覚リアリズムや一貫性の維持といった課題に直面している。本稿では,これらの障害を克服する自動T2Vプロンプト学習手法を提案する。提案手法は,強力なベースラインに比べて視覚的リアリズムが著しく高いトリロビットビデオを生成することができることを示す。
参考スコア（独自算出の注目度）: 0.8192907805418583
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Paleontology, the study of past life, fundamentally relies on fossils to reconstruct ancient ecosystems and understand evolutionary dynamics. Trilobites, as an important group of extinct marine arthropods, offer valuable insights into Paleozoic environments through their well-preserved fossil records. Reconstructing trilobite behaviour from static fossils will set new standards for dynamic reconstructions in scientific research and education. Despite the potential, current computational methods for this purpose like text-to-video (T2V) face significant challenges, such as maintaining visual realism and consistency, which hinder their application in science contexts. To overcome these obstacles, we introduce an automatic T2V prompt learning method. Within this framework, prompts for a fine-tuned video generation model are generated by a large language model, which is trained using rewards that quantify the visual realism and smoothness of the generated video. The fine-tuning of the video generation model, along with the reward calculations make use of a collected dataset of 9,088 Eoredlichia intermedia fossil images, which provides a common representative of visual details of all class of trilobites. Qualitative and quantitative experiments show that our method can generate trilobite videos with significantly higher visual realism compared to powerful baselines, promising to boost both scientific understanding and public engagement.
Abstract（参考訳）: 過去の生命の研究である古生物学は、化石に頼って古代の生態系を再構築し、進化のダイナミクスを理解する。絶滅した海洋性節足動物の重要なグループであるトリロビットは、保存状態のよい化石記録を通じて古生代の環境に関する貴重な洞察を提供する。静的な化石からトリロビットの挙動を再構築することで、科学研究と教育における動的再構築の新たな標準が確立される。その可能性にもかかわらず、テキスト・トゥ・ビデオ(T2V)のような現在の計算手法は、視覚的リアリズムや一貫性の維持といった重要な課題に直面しており、科学的な文脈におけるそれらの応用を妨げる。これらの障害を克服するために,自動T2Vプロンプト学習手法を提案する。このフレームワーク内では,映像の視覚的リアリズムと滑らかさを定量化する報酬を用いて,大規模な言語モデルによって微調整ビデオ生成モデルのプロンプトが生成される。映像生成モデルの微調整と報酬計算は、収集された9,088個のEoredlichia中間化石画像を用いており、これは全ての種類のトリロビットの視覚的詳細を共通に表現している。定性的かつ定量的な実験により、我々の手法は強力なベースラインよりもはるかに高い視覚的リアリズムを持つトリロビットビデオを生成することができ、科学的な理解と公的なエンゲージメントの両方を高めることが期待できる。

関連論文リスト

HumanSAM: Classifying Human-centric Forgery Videos in Human Spatial, Appearance, and Motion Anomaly [15.347208661111198]
HumanSAMは、人間中心のフォージェリーを、生成されたコンテンツでよく見られる3つの異なる種類のアーティファクトに分類することを目的としている。 HumanSAMは、バイナリとマルチクラスの偽造分類の両方において、最先端の手法と比較して有望な結果をもたらす。
論文参考訳（メタデータ） (2025-07-26T12:03:47Z)
Reconstructing Animals and the Wild [51.98009864071166]
本研究では,単一画像から自然シーンを再構成する手法を提案する。当社のアプローチは、大規模言語モデルにおける強力な世界の先駆的活用の進歩に基づくものです。本稿では,100万枚の画像と数千枚の資産からなる合成データセットを提案する。
論文参考訳（メタデータ） (2024-11-27T23:24:27Z)
Do As I Do: Pose Guided Human Motion Copy [39.40271266234068]
モーションコピーは、人工知能とコンピュータビジョンにおいて興味深いが難しい課題だ。既存のアプローチでは、通常、ターゲットのフェイクビデオを生成するために、L1またはL2損失の従来のGANを採用する。連続学習を促進するために,ポーズ・ツー・アジュアンス生成におけるエピソード記憶モジュールを提案する。提案手法は,PSNRとFIDをそれぞれ7.2%,12.4%改善した。
論文参考訳（メタデータ） (2024-06-24T12:41:51Z)
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators [56.01348424615965]
我々は,リアルタイムな物理知識をタイムラプスビデオから学習し,メタモルフィック生成を実装する,タイムラプスビデオ生成モデルであるtextbfMagicTimeを提案する。実験は、高品質でダイナミックなメタモルフィックビデオを生成するためにMagicTimeの優位性と有効性を示す。
論文参考訳（メタデータ） (2024-04-07T16:49:07Z)
Sora Generates Videos with Stunning Geometrical Consistency [75.46675626542837]
そこで本研究では,実世界の物理原理に則って生成した映像の質を評価する新しいベンチマークを提案する。生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。
論文参考訳（メタデータ） (2024-02-27T10:49:05Z)
Virtual Pets: Animatable Animal Generation in 3D Scenes [84.0990909455833]
仮想ペット(Virtual Pet)は、3次元環境下での標的動物種に対する現実的で多様な動きをモデル化するための新しいパイプラインである。我々はモノクロインターネットビデオを活用し、背景と背景の静的なNeRF表現に対して変形可能なNeRF表現を抽出する。我々は,種レベルの共有テンプレート学習とビデオ毎の微調整を含む再構築戦略を開発する。
論文参考訳（メタデータ） (2023-12-21T18:59:30Z)
DreaMo: Articulated 3D Reconstruction From A Single Casual Video [59.87221439498147]
対象者の視界が不完全である単一かつカジュアルに捉えたインターネットビデオから3次元形状の連続的再構成について検討した。 DreaMoは、ノベルビューレンダリング、詳細な形状復元、骨格生成において有望な品質を示している。
論文参考訳（メタデータ） (2023-12-05T09:47:37Z)
Fossil Image Identification using Deep Learning Ensembles of Data Augmented Multiviews [8.877286028859602]
本稿では,化石画像のオリジン(O),グレイ(G),骨格(S)ビューを収集する多視点アンサンブルフレームワークを提案する。 2400枚の画像を持つ最大のフスリノイドデータセットの実験は、提案されたOGSがベースラインを一貫して上回っていることを示している。 OGSは、データセットのオリジナルのラベルと、2人の人間の専門家の再識別との合意が最も高い。
論文参考訳（メタデータ） (2023-02-16T03:57:21Z)
LASR: Learning Articulated Shape Reconstruction from a Monocular Video [97.92849567637819]
1つのビデオから3d形状を学習するためのテンプレートフリー手法を提案する。本手法は,人間,動物,未知のクラスの映像から,非剛体3D構造を忠実に再構築する。
論文参考訳（メタデータ） (2021-05-06T21:41:11Z)
Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文参考訳（メタデータ） (2021-03-30T17:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。