Fugu-MT 論文翻訳(概要): Generative Timelines for Instructed Visual Assembly

論文の概要: Generative Timelines for Instructed Visual Assembly

arxiv url: http://arxiv.org/abs/2411.12293v1
Date: Tue, 19 Nov 2024 07:26:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.030711
Title: Generative Timelines for Instructed Visual Assembly
Title（参考訳）: 指示型視覚アセンブリのための生成タイムライン
Authors: Alejandro Pardo, Jui-Hsien Wang, Bernard Ghanem, Josef Sivic, Bryan Russell, Fabian Caba Heilbron,
Abstract要約: この研究の目的は、自然言語の指示を通じて視覚的タイムライン(例えばビデオ)を操作することである。そこで本研究では,教師付き視覚アセンブリタスクの実行を訓練した生成モデルであるTimeline Assemblerを提案する。
参考スコア（独自算出の注目度）: 106.80501761556606
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The objective of this work is to manipulate visual timelines (e.g. a video) through natural language instructions, making complex timeline editing tasks accessible to non-expert or potentially even disabled users. We call this task Instructed visual assembly. This task is challenging as it requires (i) identifying relevant visual content in the input timeline as well as retrieving relevant visual content in a given input (video) collection, (ii) understanding the input natural language instruction, and (iii) performing the desired edits of the input visual timeline to produce an output timeline. To address these challenges, we propose the Timeline Assembler, a generative model trained to perform instructed visual assembly tasks. The contributions of this work are three-fold. First, we develop a large multimodal language model, which is designed to process visual content, compactly represent timelines and accurately interpret timeline editing instructions. Second, we introduce a novel method for automatically generating datasets for visual assembly tasks, enabling efficient training of our model without the need for human-labeled data. Third, we validate our approach by creating two novel datasets for image and video assembly, demonstrating that the Timeline Assembler substantially outperforms established baseline models, including the recent GPT-4o, in accurately executing complex assembly instructions across various real-world inspired scenarios.
Abstract（参考訳）: この研究の目的は、自然言語命令を通じて視覚的タイムライン(例えばビデオ)を操作し、複雑なタイムライン編集タスクを専門家でないユーザや障害者でも利用できるようにすることである。私たちはこのタスクを視覚的アセンブリと呼ぶ。この仕事は必要なように難しい一入力タイムラインにおける関連視覚内容の特定及び所定の入力(ビデオ)コレクションにおける関連視覚内容の検索二入力された自然言語の指示を理解すること、及び三入力された視覚タイムラインの所望の編集を行い、出力タイムラインを作成すること。これらの課題に対処するために,教師付き視覚アセンブリタスクを実行するために訓練された生成モデルであるTimeline Assemblerを提案する。この作品の貢献は3倍である。まず、視覚コンテンツを処理し、タイムラインをコンパクトに表現し、正確なタイムライン編集命令を解釈する、大規模なマルチモーダル言語モデルを開発する。第2に、視覚的アセンブリータスクのためのデータセットを自動的に生成する新しい手法を導入し、人間のラベル付きデータを必要とせずに、モデルの効率的なトレーニングを可能にした。第3に、画像とビデオのアセンブリのための2つの新しいデータセットを作成し、タイムラインアセンブラが、様々な実世界のインスパイアされたシナリオで複雑なアセンブリ命令を正確に実行する際に、最新のGPT-4oを含む確立されたベースラインモデルを大幅に上回っていることを示すことによって、我々のアプローチを検証する。

関連論文リスト

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance [55.32799307123252]
本稿では,既存のビデオ編集ペアを高忠実度トレーニング四重項に変換するスケーラブルなデータ生成パイプラインを提案する。本稿では,学習可能なクエリと参照セマンティックガイダンスのための潜在視覚特徴を相乗化する統合編集アーキテクチャKiwi-Editを提案する。
論文参考訳（メタデータ） (2026-03-02T18:46:28Z)
DreamOmni2: Multimodal Instruction-based Editing and Generation [77.997848231822]
マルチモーダルな命令ベースの編集と生成という2つの新しいタスクを提案する。これらのタスクはテキストとイメージの命令の両方をサポートし、具体的概念と抽象概念の両方を含むようにスコープを拡張する。データ合成パイプラインは,(1)抽象的概念と具体的概念の両方の抽出データを作成するための特徴混合法,(2)編集と抽出モデルを用いたマルチモーダル命令ベースの編集訓練データを生成すること,(3)抽出モデルを適用してマルチモーダル命令ベースの編集のためのトレーニングデータを生成すること,の3つのステップで構成されている。
論文参考訳（メタデータ） (2025-10-08T06:07:14Z)
FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文参考訳（メタデータ） (2025-06-20T07:46:40Z)
Get In Video: Add Anything You Want to the Video [48.06070610416688]
ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込む能力がますます求められている。現在のアプローチでは、特定の対象のユニークな視覚的特徴を捉え、自然なインスタンス/シーンの相互作用を保証することができません。本稿では,ユーザがビデオに取り入れたい視覚的要素を正確に特定するための参照画像を提供する「Get-In-Video Editing」を紹介する。
論文参考訳（メタデータ） (2025-03-08T16:27:53Z)
ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual Instructions [57.304601070962086]
本研究の目的は、入力画像が与えられた画像列の形式で、ステップバイステップの視覚的指示を生成することである。課題の一部は、この問題に対する大規模なトレーニングデータが不足していることに起因する。本稿では,指導ビデオから大規模視覚指導データを自動的に収集する手法を提案する。第2に、提供された入力画像に整合したステップバイステップの視覚命令を生成することができるビデオ拡散モデルであるShowHowToを開発し、訓練する。
論文参考訳（メタデータ） (2024-12-02T21:40:17Z)
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Generative Visual Instruction Tuning [11.727612242016871]
本稿では,大規模なマルチモーダルモデルのゼロショット機能を改善するために,自動生成した命令追従データを提案する。 GenLLaVAは、ジェネレーティブな大言語であり、ビジュアルアシスタントである。我々のモデルはLLaVAよりも優れた視覚理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
論文参考訳（メタデータ） (2024-06-17T07:06:58Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。 TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文参考訳（メタデータ） (2023-12-19T06:42:47Z)
Improving In-Context Learning in Diffusion Models with Visual Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。 iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文参考訳（メタデータ） (2023-12-03T14:15:52Z)
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文参考訳（メタデータ） (2023-09-30T14:26:43Z)
DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2023-05-23T17:57:09Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文参考訳（メタデータ） (2020-01-29T22:51:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。