論文の概要: E.T. the Exceptional Trajectories: Text-to-camera-trajectory generation with character awareness
- arxiv url: http://arxiv.org/abs/2407.01516v1
- Date: Mon, 1 Jul 2024 17:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:21:46.285936
- Title: E.T. the Exceptional Trajectories: Text-to-camera-trajectory generation with character awareness
- Title(参考訳): E.T. 例外軌道:文字認識によるテキスト・カメラ・トラック生成
- Authors: Robin Courant, Nicolas Dufour, Xi Wang, Marc Christie, Vicky Kalogeiton,
- Abstract要約: 本稿では,文字情報とテキストキャプションとともに,カメラトラジェクトリを用いた例外トラジェクトリ (E.T.) と呼ばれるデータセットを提案する。
私たちの知る限りでは、この種のデータセットとしてはこれが初めてのものです。
E.T.データセットの潜在的な応用を示すために、DIRECTORという拡散に基づくアプローチを提案する。
評価指標にContrastive Language-Trajectory 埋め込みである E.T. データセット CLaTr をトレーニングする。
- 参考スコア(独自算出の注目度): 9.79206550593288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stories and emotions in movies emerge through the effect of well-thought-out directing decisions, in particular camera placement and movement over time. Crafting compelling camera trajectories remains a complex iterative process, even for skilful artists. To tackle this, in this paper, we propose a dataset called the Exceptional Trajectories (E.T.) with camera trajectories along with character information and textual captions encompassing descriptions of both camera and character. To our knowledge, this is the first dataset of its kind. To show the potential applications of the E.T. dataset, we propose a diffusion-based approach, named DIRECTOR, which generates complex camera trajectories from textual captions that describe the relation and synchronisation between the camera and characters. To ensure robust and accurate evaluations, we train on the E.T. dataset CLaTr, a Contrastive Language-Trajectory embedding for evaluation metrics. We posit that our proposed dataset and method significantly advance the democratization of cinematography, making it more accessible to common users.
- Abstract(参考訳): 映画におけるストーリーや感情は、よく考え抜かれたディレクティブ決定、特にカメラの配置や動きによって現れる。
魅力的なカメラトラジェクトリを作るのは、細かなアーティストにとっても、複雑な反復的なプロセスだ。
そこで本研究では,カメラトラジェクトリを用いた例外軌道(E.T.)と呼ばれるデータセットと,カメラとキャラクタの両方の記述を含む文字情報とテキストキャプションを提案する。
私たちの知る限りでは、この種のデータセットとしてはこれが初めてのものです。
E.T.データセットの潜在的な応用を示すために、拡散に基づくアプローチであるDIRECTORを提案し、カメラとキャラクタの関係と同期を記述したテキストキャプションから複雑なカメラトラジェクトリを生成する。
堅牢で正確な評価を保証するため、評価指標にContrastive Language-Trajectory 埋め込みである E.T. データセット CLaTr をトレーニングする。
提案したデータセットと手法は,撮影技術の民主化を著しく推進し,一般ユーザにとってよりアクセスしやすいものにしている。
関連論文リスト
- ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - Joint-Dataset Learning and Cross-Consistent Regularization for Text-to-Motion Retrieval [4.454835029368504]
本稿では,自然動作記述に最も関係のあるシーケンスを検索することを目的とした,最近導入されたテキストモーション検索に注目した。
これらの有望な道を探究する最近の努力にもかかわらず、大きな課題は、堅牢なテキストモーションモデルをトレーニングするための不十分なデータである。
本稿では,複数のテキスト・モーション・データセットを同時にトレーニングする共同データセット学習について検討する。
また、骨格データのプロセスシーケンスに特定の時間的注意をあてる、MoT++と呼ばれるトランスフォーマーベースのモーションエンコーダも導入する。
論文 参考訳(メタデータ) (2024-07-02T09:43:47Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - TVPR: Text-to-Video Person Retrieval and a New Benchmark [19.554989977778312]
テキスト・ツー・ビデオ・パーソン検索(TVPR)と呼ばれる新しいタスクを提案する。
TVPRNは、人物ビデオの視覚的および運動的表現を融合することにより、映像表現を取得する。
TVPRNはTVPReidデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-07-14T06:34:00Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Cross-Camera Trajectories Help Person Retrieval in a Camera Network [124.65912458467643]
既存の手法では、純粋な視覚的マッチングや時間的制約を考慮することが多いが、カメラネットワークの空間情報は無視する。
本稿では,時間的情報と空間的情報を統合したクロスカメラ生成に基づく歩行者検索フレームワークを提案する。
本手法の有効性を検証するため,最初のカメラ横断歩行者軌跡データセットを構築した。
論文 参考訳(メタデータ) (2022-04-27T13:10:48Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。