Fugu-MT 論文翻訳(概要): Diving Deep into the Motion Representation of Video-Text Models

論文の概要: Diving Deep into the Motion Representation of Video-Text Models

arxiv url: http://arxiv.org/abs/2406.05075v1
Date: Fri, 7 Jun 2024 16:46:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 13:12:42.522763
Title: Diving Deep into the Motion Representation of Video-Text Models
Title（参考訳）: 映像テキストモデルにおける動き表現の深層化
Authors: Chinmaya Devaraj, Cornelia Fermuller, Yiannis Aloimonos,
Abstract要約: GPT-4の生成した動作記述は、アクティビティのきめ細かい動作記述をキャプチャする。動作記述の検索作業におけるビデオテキストモデルの評価を行った。
参考スコア（独自算出の注目度）: 12.197093960700187
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Videos are more informative than images because they capture the dynamics of the scene. By representing motion in videos, we can capture dynamic activities. In this work, we introduce GPT-4 generated motion descriptions that capture fine-grained motion descriptions of activities and apply them to three action datasets. We evaluated several video-text models on the task of retrieval of motion descriptions. We found that they fall far behind human expert performance on two action datasets, raising the question of whether video-text models understand motion in videos. To address it, we introduce a method of improving motion understanding in video-text models by utilizing motion descriptions. This method proves to be effective on two action datasets for the motion description retrieval task. The results draw attention to the need for quality captions involving fine-grained motion information in existing datasets and demonstrate the effectiveness of the proposed pipeline in understanding fine-grained motion during video-text retrieval.
Abstract（参考訳）: 動画は、シーンのダイナミクスを捉えているため、画像よりも情報的です。動画で動きを表現することで、ダイナミックな動きを捉えることができる。本稿では, GPT-4 生成した動作記述について紹介し, 動作のきめ細かい動作記述を3つの動作データセットに適用する。動作記述の検索作業におけるビデオテキストモデルの評価を行った。 2つのアクションデータセットにおける人間の専門家のパフォーマンスよりもはるかに遅れており、ビデオテキストモデルが動画の動作を理解するかどうかという疑問が提起されている。そこで本研究では,動き記述を利用して映像テキストモデルにおける動作理解を改善する手法を提案する。本手法は動作記述検索タスクにおいて2つの動作データセットに対して有効であることが証明された。その結果,既存のデータセットにおける微粒な動き情報を含む品質キャプションの必要性が注目され,ビデオテキスト検索における微粒な動きの理解におけるパイプラインの有効性が示された。

関連論文リスト

MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation [126.77662882743168]
テキストと音声の両方に33,072人の注釈付き動作表現を含むデータセットであるMeViSを紹介する。 MeViSがサポートする4つのタスクにまたがる15の既存メソッドをベンチマークする。本稿では,RVOS/AVOS/RMOTに対するLMPM++のアプローチを提案する。
論文参考訳（メタデータ） (2025-12-11T18:59:44Z)
DisMo: Disentangled Motion Representations for Open-World Motion Transfer [21.557843791867906]
DisMoは、生のビデオデータから直接抽象的な動きを表現するための新しいパラダイムである。私たちの表現は、外見、オブジェクトのアイデンティティ、ポーズといった静的情報とは独立しています。学習した表現は下流の動作理解タスクに適していることを示す。
論文参考訳（メタデータ） (2025-11-28T18:25:54Z)
Towards Fine-Grained Human Motion Video Captioning [29.488105191601957]
我々は,動き認識デコーディングを取り入れることでキャプション品質を向上させる新しい生成フレームワークであるMotion-Augmented Caption Model (M-ACM)を紹介する。中心となるM-ACMは、人間のメッシュリカバリに由来する動きの表現を利用して、人間の身体のダイナミクスを明確に強調する。実験の結果,M-ACMは複雑な人間の動きや微妙な時間変動を正確に記述する従来の手法よりも優れていた。
論文参考訳（メタデータ） (2025-10-24T04:06:04Z)
MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文参考訳（メタデータ） (2025-02-05T14:26:07Z)
Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文参考訳（メタデータ） (2024-12-17T18:58:07Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文参考訳（メタデータ） (2024-10-17T17:31:24Z)
LocoMotion: Learning Motion-Focused Video-Language Representations [45.33444862034461]
局所物体の動きと時間的進行を記述した動きに着目したキャプションからLocoMotionを提案する。ビデオに合成動作を追加し、これらの動きのパラメータを用いて対応するキャプションを生成することで、これを実現する。
論文参考訳（メタデータ） (2024-10-15T19:33:57Z)
MotionFix: Text-Driven 3D Human Motion Editing [52.11745508960547]
主な課題は、トレーニングデータの不足と、ソースの動きを正確に編集するモデルの設計である。本研究では, (i) 震源運動, (ii) 目標運動, (iii) 編集テキストからなる三つ組のデータセットを半自動で収集する手法を提案する。このデータにアクセスすると、ソースモーションと編集テキストの両方を入力として取り込む条件拡散モデルTMEDをトレーニングできます。
論文参考訳（メタデータ） (2024-08-01T16:58:50Z)
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文参考訳（メタデータ） (2024-08-01T10:55:20Z)
MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文参考訳（メタデータ） (2024-05-30T17:59:50Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。 FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文参考訳（メタデータ） (2024-03-20T11:38:30Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
MotionScript: Natural Language Descriptions for Expressive 3D Human Motions [8.050271017133076]
人間の3次元動作の詳細な自然言語記述を生成するための新しいフレームワークであるMotionScriptを紹介した。 MotionScriptは、人間の動きの完全な複雑さを捉える、きめ細かい構造化された記述を提供する。 MotionScriptは、テキスト・トゥ・モーションモデルのための記述ツールとトレーニングリソースの両方として機能する。
論文参考訳（メタデータ） (2023-12-19T22:33:17Z)
LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2023-12-05T17:59:52Z)
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文参考訳（メタデータ） (2023-07-13T17:57:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。