論文の概要: TRANSPORTER: Transferring Visual Semantics from VLM Manifolds
- arxiv url: http://arxiv.org/abs/2511.18359v1
- Date: Sun, 23 Nov 2025 09:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.79734
- Title: TRANSPORTER: Transferring Visual Semantics from VLM Manifolds
- Title(参考訳): トランスポータ:VLMマニフォールドからの視覚的セマンティクスの転送
- Authors: Alexandros Stergiou,
- Abstract要約: 本稿では,ビデオ生成のためのモデルに依存しないアプローチであるTransportERとともに,ロジット・トゥ・ビデオ(L2V)タスクを提案する。
TransporterはVLMの高セマンティック埋め込み空間への最適輸送結合を学習する。
代わりに、ロジットスコアは条件付きビデオ生成のための埋め込み方向を定義する。
- 参考スコア(独自算出の注目度): 56.749972238005604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How do video understanding models acquire their answers? Although current Vision Language Models (VLMs) reason over complex scenes with diverse objects, action performances, and scene dynamics, understanding and controlling their internal processes remains an open challenge. Motivated by recent advancements in text-to-video (T2V) generative models, this paper introduces a logits-to-video (L2V) task alongside a model-independent approach, TRANSPORTER, to generate videos that capture the underlying rules behind VLMs' predictions. Given the high-visual-fidelity produced by T2V models, TRANSPORTER learns an optimal transport coupling to VLM's high-semantic embedding spaces. In turn, logit scores define embedding directions for conditional video generation. TRANSPORTER generates videos that reflect caption changes over diverse object attributes, action adverbs, and scene context. Quantitative and qualitative evaluations across VLMs demonstrate that L2V can provide a fidelity-rich, novel direction for model interpretability that has not been previously explored.
- Abstract(参考訳): ビデオ理解モデルはどのように答えを得るのか?
現在のビジョン言語モデル(VLM)は、多様なオブジェクト、アクションパフォーマンス、シーンダイナミクスを持つ複雑なシーンを推論するが、内部プロセスの理解と制御は依然としてオープンな課題である。
近年のテキスト・トゥ・ビデオ(T2V)生成モデルの発展により,モデルに依存しないアプローチであるTransportERとともにロジス・トゥ・ビデオ(L2V)タスクを導入し,VLMの予測の背後にあるルールをキャプチャするビデオを生成する。
トランスポータは、T2Vモデルが生成する高視認性を考えると、VLMの高セマンティック埋め込み空間への最適な輸送結合を学習する。
代わりに、ロジットスコアは条件付きビデオ生成のための埋め込み方向を定義する。
TransportERは、さまざまなオブジェクト属性、アクションの副詞、シーンコンテキストに対するキャプション変更を反映したビデオを生成する。
VLMの定量的および定性的な評価は、L2Vが以前にも検討されていないモデル解釈可能性に対して、忠実度に富んだ新しい方向を提供できることを示した。
関連論文リスト
- Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO [20.96275248557104]
Video-Next-Event Prediction (VNEP)は、テキスト内の次のイベントを予測するために動的なビデオ応答を必要とする。
VNEPのためのビデオ拡散モデル(VDM)とビジョンランゲージモデル(VLM)を一致させるために、強化学習を利用するモデルVANSを導入する。
VANSのコアとなるのは、VLMとVDMを編成してユニットとして機能するジョイント・GRPOである。
手続き的および予測的ベンチマークの実験は、VANSがビデオイベント予測と可視化の両方で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-11-20T18:59:44Z) - RISE-T2V: Rephrasing and Injecting Semantics with LLM for Expansive Text-to-Video Generation [19.127189099122244]
RISE-T2Vを導入し,迅速な言い換えと意味的特徴抽出のプロセスを一つのステップに統合する。
本稿では,テキスト隠れ状態を利用した拡散モデルを実現するRephrasing Adapterという革新的なモジュールを提案する。
論文 参考訳(メタデータ) (2025-11-06T12:42:03Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [126.02606196101259]
Sa2VAは、画像とビデオの両方の密集した理解のための、包括的で統一されたモデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
Sa2VAはQwen-VLやIntern-VLなど、様々なVLMに容易に拡張できる。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning [0.0]
本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。
私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。
論文 参考訳(メタデータ) (2024-04-14T14:51:44Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。